作为全球知名的短视频社交平台,快手拥有海量用户数据和复杂业务场景。为更好地应对业务增长压力,提升自身算力水平,满足短视频、直播等核心业务以及人工智能、大数据等新兴业务的发展需求,快手积极布局人工智能和大数据算力中心建设。
数据中心网络作为算力互联的“神经系统”,如何实现服务器、存储设备以及应用系统之间快速、稳定、高效的数据传输,是支撑各类数字化业务正常运转的关键所在。快手与中兴通讯深入合作,坚持数据中心交换机产品软硬件自主创新,共同助推国产智算网络技术能力不断升级。
自主可控,生态开放
快手坚持“软件自主可控,硬件生态开放”的技术战略,与中兴通讯携手打造满足全场景业务发展的新一代数据中心交换机产品。
软件方面,快手积极拥抱开源社区,以SONiC为基础构建了开放架构的网络操作系统平台KNOS(Kuaishou Network Operating System)。依托KNOS,快手与中兴通讯携手研发了一系列数据中心场景关键技术特性,如远程直接内存访问(RDMA)、非等值负载分担(UCMP)、双向转发检测(BFD)/链路时延(Link-Delay)、ISIS协议、长距光模块(ZR)等,同时配套全业务场景统一的网络管理平台KNP(Kuaishou Network Platform),实现了端到端高性能、智能化网络自动规建维优。
硬件方面,中兴通讯ZXR10 5960X/M数据中心交换机有2T/8T/12.8T/51.2T多个产品机型,可覆盖快手通算、智算、存储、管理等多个大规模数据处理和复杂业务场景。交换机系列产品基于中兴通讯自主研发的硬件平台,产品性能优异。以51.2T盒式交换机为例,4RU紧凑高度即可搭载 128个400G QSFP112端口,其中心交换、接口单元、主控单元等均采用模块化设计,模块间采用高速SLIMSAS总线互联,可靠性极高;创新式的两层PCB板设计,不仅节省了1块高速PCB板材和装配,双层固定扣板结构更保障了112Gbps速率信号的稳定传输;主控单元的CPU模组设计采用 OCM标准,支持BMC(baseboard management controller)进行外设管理,盒体前面板可拆卸,支持多元化交换芯片和接口板,可适配不同端口形态的机型。
这些软硬件创新技术全面覆盖了快手DCN数据中心网络、HPN高性能智算网络、DCI城域网、CDN等主要网络场景,极大地提升了网络运营效率与稳定性保障能力,助力快手数据中心网络向智能化、高效化迈进。
全栈智算,超宽无损
基于自主可控、开放解耦的软硬件产品平台,快手构建了面向AI智算的全新一代数据中心网络架构。方案深度整合RoCEv2端到端无损以太技术,以中兴通讯51.2T交换机作为核心交换节点,成功构建了万卡级大模型集群网络(见图1),率先在国内实现400G RoCEv2高性能网络的部署应用。
在该万卡智算集群,快手携手中兴通讯进行了一系列领先无损网络技术创新:
上述方案,不仅与业界传统IB网络方案在性能上并驾齐驱,更实现了成本的大幅削减,实现了基于以太网的全栈增强无损网络方案规模商用部署落地。
全域覆盖,智引未来
除了大模型智算数据中心,中兴通讯开放解耦的全系交换机产品规模部署全场景数据中心网络。基于全自研框盒式交换机构建的数据中心网络,两层CLOS即可轻松驾驭数十万台服务器的接入需求,其容量之巨,较上一代产品实现了质的飞跃,同时前瞻性地兼容了100GE/200GE/400GE服务器的接入,确保了技术投资的长期价值。
历经3年的稳健发展,快手与中兴通讯的深度合作在新技术新产品的研发与落地方面取得了令人瞩目的成就,依托自主研发与快速迭代能力,持续推动交换机向更大带宽、更高容量的极限挑战,打造了行业开放生态合作的全新范式。未来,快手将继续加强与中兴通讯的联合研发,持续创新INT/SDN、端网融合、在网计算等前沿技术,满足新一代AI/大模型算力对数据中心网络的极致带宽与超强无损需求,为数字经济时代的快速发展提供更强大的网络支撑。