带宽利用率提升50%,腾讯云联网架构方案解析

2020-12-01

导语 | 企业 A 是一家互联网公司,当前在云上计算资源已经接近 10W 核,华东地域专线流量 24G+,资源部署以华东为主、华北、华南、西南等可用区为辅。该企业属于典型的混合云架构,本文主要分享企业A如何通过云联网架构优化实现带宽利用率提升50%,希望与大家一同交流。文章作者:李彬文,腾讯云售后架构师。

 

一、云联网背景介绍

 

1. 对等连接概述

 

对等连接(Peering Connection)是一种大带宽、高质量的云上资源互通服务,可以帮助打通腾讯云上的资源通信链路。对等连接具有多区域、多账户、多种网络异构互通等特点,支持 VPC 间互通、VPC 和黑石私有网络互通,满足不同业务的部署需求。

 

 

2. 传统专线概述

 

混合云架构前期都是使用传统的专用通道打通用户 IDC 与云上 VPC。如果一根物理专线需要打通多个 VPC,需要通过不同的 VLAN ID 分别创建专用通道来连接多个VPC。

 

 

3. 云联网概述

 

云联网(Cloud Connect Network,CCN)为用户提供云上不同 VPC间、VPC 与本地数据中心间(IDC)内网互联的服务。具备全网多点互联、路由自学习、链路选优及故障快速收敛等能力。

 

云联网覆盖全球 20+ 地域,支持 100+Gbps 带宽以及最高可达 99.99% 的可用性,为用户轻松构建极速、稳定、安全、灵活的全球互联网络,典型应用场景如下:

 

  • VPC 与 VPC 间高质量内网互联:在线教育多个地域的实时音视频系统、游戏加速多地域内网互联、多地域容灾架构。

  • VPC 与 IDC 间内网全互联:一个专用通道打通多个 VPC,实现单次接入全网互联,如混合云场景。

 

 

云联网对比对等连接和传统专线的优势如下图所示:

 

 

下文将从企业 A 的实际出发,介绍企业 A 采用腾讯云联网的架构优化实践。

 

二、企业A架构现状介绍

 

1. 企业A混合云背景介绍

 

企业 A 核心业务位于华东地区,在上海有两个 VPC,一个自建 IDC。在北京、成都、广州、HK 各有一个 VPC,其中 HK 的 VPC 用于接入海外业务。

 

最终通过对等连接以及传统专线通道实现所有云上 VPC 与自建 IDC 的互联互通(由于传统架构互联线路较多暂不提供具体拓扑,下文提供了分解拓扑)。

 

2. 公有云VPC通过对等连接互联架构

 

 

  • 企业 A 上海地域当前是两个 VPC,一个是业务 VPC,另外一个是用于测试的 VPC,同地域两个 VPC 之间理论上不限制带宽,除非底层数据中心的 DCI 互联带宽(DCI 互联带宽都是上 T 级别)被打满才会导致同地域对等连接丢包;

  • 企业 A 的少量海外业务通过香港 2 区的 VPC 做接入,再通过 100Mbps 的对等连接实现打通上海 5 区的核心业务 VPC;

  • 企业 A 分布在华东、华北、华南、西南的业务 VPC 通过对等连接全互连实现业务互访。

 

3. 公有云VPC与自建IDC通过传统专线互联架构

 

名词解释:NGW(底层专线网关集群)、QCAR(网络设备)、QCPL(网络设备)IDC(数据中心)。

 

  • 企业 A 公有云 VPC 到自建 IDC 每天峰值总流量 24Gbps,正常四条 10G 专线均分流量为:24Gbps*25%=6Gbps;

  • 当前企业 A 的传统专线架构是专线 1 与 2、专线 3 与 4 相互备份,当专线 1 故障,那么专线 1 的流量会转发到专线 2,所以每条专线的带宽使用率不建议超过 50%;

  • 由于企业 A 业务快速增长,当前每条专线的带宽使用率已经达到 60%。如果上图 2 的专线 1 故障,就会有 12Gbps 的流量转发到专线 2,最终导致专线 2 带宽拥塞而丢包影响业务。

 

4. 当前互联架构的挑战

 

  • 公有云 VPC 之间互通要建立全互连的对等连接,并且每次增加 VPC 都有增加大量对等连接和路由,最终导致维护成本越来越高;

  • 跨地域对等连接的底层网关集群故障无法自动切换路由恢复,止损耗时久;

  • 企业 A 自建 IDC 到腾讯云的四条专线,如何实现中断任何一条,另外三条专线可用均分故障链路的流量,最终通过最低的成本解决丢包问题;

  • 企业 A 有四个公有云 VPC 需要和自建 IDC 互通,那么需要四个专线网关,以及 16 个 BGP 邻居和专线通道。后续每增加一个 VPC 就会增加四个专线通道,最终导致专线的运维成本增加。

 

三、云联网改造方案介绍

 

1. 公有云VPC通过云联网互联架构设计

 

 

  • 企业 A 所有 VPC 只需要加入新建云联网实例,即可实现相互路由自动学习,无需维护大量对等连接和大量手工添加的路由;

  • 所有存量 VPC 以及后续增量 VPC 互通的流量都需要通过云联网实现,可以将该云联网实例看作企业 A 的虚拟骨干网;

  • 多 AZ(可用区)网关集群容灾,可用性比对等连接更高;

  • 跨地域云联网网关之间会有拨测,最终选择最优路径来降低延迟,提升业务稳定性。

 

2. 公有云VPC与自建IDC通过云联网互联架构设计

 

 

名词解释:CCNGW(云联网类型专线网关)、QCAR(网络设备)、QCPL(网络设备)IDC(数据中心)。

 

  • 企业 A 所有 VPC 以及四个专线网关都加入同一个云联网实例最终实现相互访问,并且无论几个 VPC 和自建 IDC 互通只需要 4 个专线通道即可(简化配置复杂度,简单可靠);

  • 云上 VPC 路由下一跳是云联网,然后通过 ECMP(负载均衡)四份流量到 4 个云联网专线网关,最终通道底层路由将流量通过四条物理专线转发到自建 IDC(逻辑转发路径:VPC---CCN---专线网关---专线---IDC);

  • 假设企业 A 的物理专线 1 再次中断,那么 QCPL1 无法收到自建 IDC 的 BGP 路由。最终通过路由收敛使得云联网将流量转发给云联网专线网关 2-4,从而实现任意一条物理专线故障都会将流量均分给其他三条专线;

  • 在成本不增加的情况下,通过云联网的改造将专线带宽利用率从理论值 50% 提升到 75% 实现降本增效。

 

四、云联网改造总结

 

1. 云联网改造带来的实际收益

 

  • 企业 A 所有云上 VPC 不必两两之间创建对等连接,只需要加入云联网即可实现全部的互联互通,降低了云上 VPC 的运维成本;

  • 企业 A 跨地域 VPC 互通的网关集群实现多 AZ 容灾,提升跨地域互通的可用性;

  • 企业 A 的四条专线峰值总流量 24Gbps 情况下中断任意一条都会通过路由收敛自动恢复业务,不必依赖于被动等待专线修复或者降级其他业务来恢复,最终提升专线的高可用性;

  • 企业 A 云上 VPC 与 IDC 互通只需要创建 4 个 BGP 邻居即可,也不必为每个云上 VPC 创建专线网关,最终极大降低专线的运维成本。

 

2. 云联网改造注意事项

 

线上业务改造需要很谨慎,建议前期做好深度调研,比如相关业务特征,带宽容量评估,当前架构的梳理,当前架构的缺点,新架构是否解决老架构缺点,各个地域的改造难度,是否可以平稳切换到新架构等。

 

双方一起确认新架构灰度基本步骤,基本原则是:先灰度测试 VPC,然后按 VPC 业务量从小到大的顺序进行灰度。

 

未使用过云联网的用户建议先创建测试 VPC 熟悉云联网配置方法,具体可参考文末提供的相关文档。

 

真正灰度前拉通腾讯云网络专家评估新老架构的底层网关路径差异,网关集群的带宽容量,底层路径MTU差异,云联网限速算法(截止 2020 年 11 月依然存在均分算法和分布式算法两种,出于带宽利用率最大化考虑建议分布式算法)等。

每次灰度迁移都需要有明确的变更步骤、验证步骤、回退步骤,最终来确保灰度顺利完成。

 

每个账号云联网数量限制 5 个,每个云联网可以绑定的网络实例(例如 VPC 就是一个网络实例)数量限制 25 个。

 

云联网跨地域带宽限速方式有两种,一种是地域出口限速(单地域云联网总的出口限速),另外一种是地域间限速(地域 A 到地域 B 之间的带宽限速)。

 

参考文档:

 

[1] 测试 VPC 配置文档:

https://cloud.tencent.com/document/product/877/18752

[2] 对等连接迁移云联网配置文档:

https://cloud.tencent.com/document/product/877/18854

[3] 传统专线网关迁移云联网专线网关配置文档:

https://cloud.tencent.com/document/product/877/31037

[4]:作者专栏文章:

https://cloud.tencent.com/developer/article/1754757