中兴通讯助力快手打造数据中心无损互联网络

发布时间:2025-04-27 作者:中兴通讯 韩云霞

        作为全球知名的短视频社交平台,快手拥有海量用户数据和复杂业务场景。为更好地应对业务增长压力,提升自身算力水平,满足短视频、直播等核心业务以及人工智能、大数据等新兴业务的发展需求,快手积极布局人工智能和大数据算力中心建设。

        数据中心网络作为算力互联的“神经系统”,如何实现服务器、存储设备以及应用系统之间快速、稳定、高效的数据传输,是支撑各类数字化业务正常运转的关键所在。快手与中兴通讯深入合作,坚持数据中心交换机产品软硬件自主创新,共同助推国产智算网络技术能力不断升级。

 

自主可控,生态开放

 

        快手坚持“软件自主可控,硬件生态开放”的技术战略,与中兴通讯携手打造满足全场景业务发展的新一代数据中心交换机产品。

        软件方面,快手积极拥抱开源社区,以SONiC为基础构建了开放架构的网络操作系统平台KNOS(Kuaishou Network Operating System)。依托KNOS,快手与中兴通讯携手研发了一系列数据中心场景关键技术特性,如远程直接内存访问(RDMA)、非等值负载分担(UCMP)、双向转发检测(BFD)/链路时延(Link-Delay)、ISIS协议、长距光模块(ZR)等,同时配套全业务场景统一的网络管理平台KNP(Kuaishou Network Platform),实现了端到端高性能、智能化网络自动规建维优。

        硬件方面,中兴通讯ZXR10 5960X/M数据中心交换机有2T/8T/12.8T/51.2T多个产品机型,可覆盖快手通算、智算、存储、管理等多个大规模数据处理和复杂业务场景。交换机系列产品基于中兴通讯自主研发的硬件平台,产品性能优异。以51.2T盒式交换机为例,4RU紧凑高度即可搭载 128个400G QSFP112端口,其中心交换、接口单元、主控单元等均采用模块化设计,模块间采用高速SLIMSAS总线互联,可靠性极高;创新式的两层PCB板设计,不仅节省了1块高速PCB板材和装配,双层固定扣板结构更保障了112Gbps速率信号的稳定传输;主控单元的CPU模组设计采用 OCM标准,支持BMC(baseboard management controller)进行外设管理,盒体前面板可拆卸,支持多元化交换芯片和接口板,可适配不同端口形态的机型。

        这些软硬件创新技术全面覆盖了快手DCN数据中心网络、HPN高性能智算网络、DCI城域网、CDN等主要网络场景,极大地提升了网络运营效率与稳定性保障能力,助力快手数据中心网络向智能化、高效化迈进。

 

全栈智算,超宽无损

 

        基于自主可控、开放解耦的软硬件产品平台,快手构建了面向AI智算的全新一代数据中心网络架构。方案深度整合RoCEv2端到端无损以太技术,以中兴通讯51.2T交换机作为核心交换节点,成功构建了万卡级大模型集群网络(见图1),率先在国内实现400G RoCEv2高性能网络的部署应用。

 

        在该万卡智算集群,快手携手中兴通讯进行了一系列领先无损网络技术创新:

  •  RDMA:利用KNOS中的RDMA相关特性,与统一网络管控平台KNP紧密协作,构建了一套集功能支撑、精细化网元监控、带内遥测可视化、自动化管控调度、流量调优等功能于一体的端到端高性能网络解决方案,全方位提升RDMA网络的带宽吞吐和时延,将网络性能发挥到极致,全方位提升系统性能。
  •  UCMP:创新采用了UCMP(unequal cost multiple path)协议及动态负载分担功能,根据实时可用带宽比例智能调整流量分配,有效缓解链路故障下的拥塞丢包问题,增强了网络的稳定性和灵活性,使自研交换机能在更多复杂网络场景中成功部署与应用。
  •  无损热升级:基于KNOS系统通过无损热补丁设计技术,实现了对交换机软件的快速、无损升级,覆盖了全场景运维需求,确保在业务无感知的情况下完成软件修正与功能增强。
  •  网络丢包检测(MOD):实时捕捉并分析硬件层面各类常见丢包事件,精准记录丢包原因及被丢弃报文的关键特征,随后将这些宝贵信息传输至采集器。极大缩减故障排查时间,为数据中心网络的稳定运行提供了坚不可摧的保障
  •  网络可视化/带内遥测(INT):集成先进的带内遥测(INT)技术,交换机网元在数据包流转间巧妙嵌入核心运行数据,实现状态与数据的同步传递。沿途设备接力标注,最终汇聚至监控分析中心,通过深度数据挖掘与拓扑融合,为运维人员呈现报文全路径视图与端到端时延细节,助力网络性能优化决策更加精准。

        上述方案,不仅与业界传统IB网络方案在性能上并驾齐驱,更实现了成本的大幅削减,实现了基于以太网的全栈增强无损网络方案规模商用部署落地。

 

全域覆盖,智引未来

 

        除了大模型智算数据中心,中兴通讯开放解耦的全系交换机产品规模部署全场景数据中心网络。基于全自研框盒式交换机构建的数据中心网络,两层CLOS即可轻松驾驭数十万台服务器的接入需求,其容量之巨,较上一代产品实现了质的飞跃,同时前瞻性地兼容了100GE/200GE/400GE服务器的接入,确保了技术投资的长期价值。

        历经3年的稳健发展,快手与中兴通讯的深度合作在新技术新产品的研发与落地方面取得了令人瞩目的成就,依托自主研发与快速迭代能力,持续推动交换机向更大带宽、更高容量的极限挑战,打造了行业开放生态合作的全新范式。未来,快手将继续加强与中兴通讯的联合研发,持续创新INT/SDN、端网融合、在网计算等前沿技术,满足新一代AI/大模型算力对数据中心网络的极致带宽与超强无损需求,为数字经济时代的快速发展提供更强大的网络支撑。