数据中心网络新阶段发展趋势分析

发布时间:2023-08-21 作者:中国电信研究院网络技术研究所副所长 雷波 阅读量:

        人类正在从动力时代迈向算力时代。算力成为数字经济发展最重要的基础设施,无论是高速发展的各类互联网业务,还是ChatGPT等AI类业务,都与海量的算力基础设施密不可分。从全球范围来看,各主要经济体的经济发展水平与算力资源多少成正相关性,未来可能出现“得算力者得天下”的情况。

        算力资源主要集中在各类数据中心。海量的服务器通过数据中心网络(data center network,DCN)连接在一起,通过各类软件服务系统将算力整合在一起为用户提供多类型的服务。早期数据中心网络与园区网/局域网并没有太大的差异,后来随着连接服务器的数量与带宽急剧增加,云服务商等推动数据中心网络迅速发展,专门为数据中心应用场景而优化网络架构,以Spine-Leaf为代表的数据中心网络架构逐步成为主流方案。随着各类业务对算力需求的持续增加,数据中心网络又面临新的挑战,正处于一个新的发展阶段。

        目前,数据中心网络无论是业务需求、网络范畴、协议体系、设备形态还是组网架构等多方面都面临新的挑战与新的发展机遇。

        业务需求方面,数据中心网络正面临两方面新需求。一是海量分布式连接对数据中心网络的高带宽需求。随着物联网、视联网等互联网业务的发展,一方面数据中心节点同时服务的用户数量激增,需要高效处理海量用户的并发接入;另一方面用户从原来的文本访问,到图片下载,再到视频传输,每个用户访问数据中心的带宽在不断增加,导致数据中心网络的南北向流量迅速增加。二是AI大模型训练与推理所需的海量算力对数据中心网络的高性能需求。大模型训练需在不同的GPU网卡之间传输大量参数、梯度信息,对传输效率有严格要求,目前测试来看,0.1%网络丢包会导致算力损失50%,且更大的带宽可以明显节省模型训练时间,这需要数据中心网络针对东西向流量要提供极致的网络性能。

        网络范畴方面,数据中心网络正呈现向两端发展的趋势。一是向端侧延伸。比如数据中心网络近期的研究热点,如InfiniBand、RoCEv2等,都需要从信息源对流量进行控制,也就是需要服务器与网络设备(交换机、路由器等)在协议层面进行互通,通过全局的拥塞控制算法来避免出现流量短期突发、多打一的端口阻塞等情况出现,从而有效降低因资源抢占而造成的拥塞与丢包等。因此,在设计应对AI大模型训练等场景所需的高性能数据中心网络时,就需要扩展网络范畴,将服务器侧的网络能力也纳入数据中心网络体系设计中,提供端到端的网络连接能力。二是向广域范畴延伸。随着单节点算力逐渐不能满足业务迅速发展的需求,将多个高性能算力节点通过网络整合成一个虚拟的高性能算力节点,正在成为业界的发展方向,因此数据中心网络将不限于在一个物理机房内,未来可结合高速光网络实现跨一定物理距离的联合组网方案。

        协议体系方面,针对AI智能算法等业务的无丢包低延时需求,基于以太网技术体系的传统数据中心网络方案无法满足相关性能要求,因此现阶段大部分智能算力节点内部采用InfiniBand技术构建高性能网络。但InfiniBand技术建网成本偏高、开放性较弱,业界也在考虑用相对开放、低成本的RoCEv2等技术替代InfiniBand技术,并在网络架构、通信协议、管控机制等方面开展技术优化、创新和融合。

        设备形态方面,随着服务器处理能力升级,且服务器网卡速率从10G、25G升级到40G以及100G,并且已经开始出现400G的网卡,数据中心网络的带宽需求在不断增加,业界主流厂商所提供的高密度数据中心交换机已经达到单机36口×400GE×16槽,单比特的成本下降明显。但是否叠加无损网络协议体系(如RoCEv2)等,各方尚未达成共识,未来可能出现两种技术路线。一是交换机分化成两种方案,一种是面向大通量的南北向流量,以性价比为主要发展目标的极简交换机体系,能够有效降低单比特设备成本;另一种是面向高性能需求的东西向流量,以极致性能为发展目标,能够适配智能网卡,实现端到端的拥塞控制的高性能交换机体系。二是交换机同时具备高通量与极致性能,根据业务场景的需求不同,弹性选择不同的能力组件来提供多样化的选择。

        组网架构方面,传统Spine-Leaf架构受到多方面的挑战,比如基于全光方案的DCI-BOX方案,可以将光层传输设备直通服务器,为大型节点设备提供最高性能的网络连接,后续可以考虑引入空芯光纤等先进光纤传输技术,进一步降低传输时延。还有两种新型数据中心网络组网方案,值得进一步研究与发展。一是基于信元交换的分布式机框解耦(DDC)方案,将大机框设备进行分布式解耦成盒式设备,分别作为转发线卡和交换网板,并采用全新的信元级确定性流控,解决大包交换效率较低的问题,可以让数据中心网络的流量均衡更优,网络开销更少;二是以OSU(optical switch unit)为核心的可重构DC网络,如Google的可重构DC光网络(Jupiter),通过引入统一SDN控制器进行动态管理和实时运维,打破现有数据中心架构形态,从而满足高性能、高可靠、低时延、可扩展的需求。

        总体而言,当前业界尚未对数据中心网络在新阶段的技术发展达成共识,多种技术路线正在并行发展。可预期随着业务需求的发展,尤其是对算力需求的激增,数据中心网络将出现新的发展势头,并成为未来一段时间内网络技术领域发展的重心。