从2023年开始ChatGPT爆火,在大模型训练场景下,随着参数规模从亿级提升到万亿级别,算力需求也出现爆发式增长。据统计,2012—2022年模型算力需求每年约增长4倍,而2023年后模型算力需求预计会以每年10倍的速度增长。
算力需求的指数级增长对AI基础设施带来极大挑战,当GPU算力增长速度低于算力需求增长时,组建超大规模GPU智算中心就成为必然趋势。由于机房空间、电力、机房散热等问题限制,智算中心建设在达到一定规模后存在单点物理中心规模受限的问题。因此在构建万卡甚至十万卡集群时搭建智算拉远分布式智算中心成为一种必然选择,智算中心长距互联需求应运而生。
训练拉远和存储拉远
目前,智算中心长距互联主要分为两类场景:训练拉远场景和存储拉远场景。
国内智算中心现状为,单点智算中心规模普遍偏小,存在零散、欠规划、算力闲置等问题,智算中心拉远互联可以将多个已经建成的智算中心的算力进行整合。且未来长时间内,国内GPU算力能力要低于国外最先进制程,相同算力国内需要更多数量GPU,通过智算互联进行分布式训练,可以弥补单智算中心算力不足的问题。在训练拉远组网时,一般以OTN设备作为长距链路底座,直连不同智算中心,如图1所示。
在智算中心算力出租或智算中心长距互联后,算力训练处理过程中会存在部分数据样本安全性要求较高的数据不便外迁,以及智算中心互联数据样本跨中心调度的需求。存储拉远场景可以将计算集群和存储集群无损互联,满足数据本地化需求,保障数据安全高效。存储拉远组网时依据用户实际需求,可灵活选用组网方案,保障网络无损传输数据即可。
无损以太网保障长距互联无丢包
为充分释放GPU集群算力,智算中心网络需要搭建高吞吐、高可靠的RoCE(RDMA over converged ethernet)网络,充分释放AI生产力。随着GPU算力增长,网络带宽从以前的100Gbps到现在的200/400Gbps,以及未来的800Gbps,都是为了实现端口高吞吐。中兴通讯承载交换机与OTN产品依托自主芯片在高性能以太网路线上持续演进,为未来800G Fabric网络提供平滑升级方案。
根据智算中心长距互联网络特点,中兴通讯承载数据中心交换机及OTN产品线联合推出ZXR10 9900X加光传输跨智算中心高速互联无损以太网解决方案,完美匹配AI算力互联需求特点,保障智算中心网络高吞吐、高可用。中兴通讯承载产品针对智算互联场景进行了多项技术创新,包括ZRLB负载均衡技术、长距PFC流量控制技术、智能主动拥塞告知(IPCN)等技术。
ZRLB负载均衡技术
无收敛的AI智算网络中,常遇到多入口多出口的复杂场景。此类场景中,我们希望来自多个入口相同目的地址的流量均匀地分发到多个出口。然而在实际环境中,往往会出现多个入口的流量汇聚到某一个出口,而其他出口上没有流量的情况,导致负载分担不均衡和网络拥塞。传统Hash算法基于五元组信息进行逐流Hash,在AI智算网络中出现Ring/HD等点到点流数少、单流带宽大的情况时极易出现Hash同质导致链路负载极化从而造成部分链路重载、部分链路轻载,产生丢包、影响整体网络吞吐率。
中兴通讯推出ZRLB(ZTE Rail Load Balance)负载均衡技术,通过对端口进行分组和智能编排,基于设备连接关系配置接口组形成入口和出口之间的一对一映射关系,发往同一台或同一类型设备的流量在接口组成员间基于接口ID进行Hash,将流量精准地负载分担到不同的出口以提升网络吞吐率。
在智算中心长距互联场景,ZRLB功能通过实现数据中心内部负载均衡,从而一定程度解决长距链路拥塞,合理利用宝贵OTN带宽的同时避免将数据中心内的不均衡问题传导到数据中心外。
长距PFC流量控制
PFC(priority-based flow control)通过逐跳提供基于优先级的流量控制实现整网链路的无丢包功能,是构建无损以太网的必选手段之一。数据中心间网络通常具有几十公里的链路长度,带来的固定往返时延往往是毫秒级别的,这使得普通PFC和ECN(explicit congestion notification)机制在该场景下会产生巨大的响应延时,从而导致对拥塞的控制不够及时,无法应对网络流量的变化。特别是,如果采用普通浅缓存网络设备,在PFC触发到生效,长距链路上产生的飞行流量很可能撑爆缓存区空间造成丢包,同时从取消PFC到上游流量再次到达,也会因缓存流量不足而造成吞吐损失。因此数据中心间网络实现无损数据传输就对网络设备提出更高的性能要求。
以网络设备400GE接口100km光纤链路为例,100km单向会引入0.5ms固定传输时延,网络设备产生拥塞通过PFC通知对端设备停流的周期内需要预留1ms的飞行报文缓存空间以防止链路丢包,当接口带宽为400GE时,所需缓存大小约为47.68MB,所需缓存空间已超过部分ASIC芯片的整机芯片最大值。业内对该场景的应对方式一般为采用高性能芯片、外置HBM(high bandwidth memory)或增加智算网关等方式,以满足数据中心间的无损数据传输。
中兴通讯数据中心交换机ZXR10 9900X系列设备通过芯片大缓存解决方案,支持长距离智算互联场景,为跨智算中心训练业务提供技术保障。
IPCN解决DC内拥塞
ECN通过网卡进行流速控制从而调整网络拥塞,这强依赖于网卡的实时响应。若将两台网卡距离拉远至2个长距离数据中心,则传统的数据中心内的DCQCN算法就不再适用,无法对网络标记的ECN报文进行快速响应避免拥塞加剧的问题。
IPCN(intelligent proactive congestion notifi- cation)功能支持在网络设备上智能识别拥塞状态,主动发送CNP报文,准确控制服务器发送RoCEv2报文的速率,既可以确保拥塞时的及时降速,又可以避免拥塞已经缓解时的过度降速,最终确保数据中心互联这种长距场景中RoCEv2业务的低时延和高吞吐。IPCN的工作原理图2所示,网络设备上启用IPCN功能的接口会对过路的RoCE报文进行分析并建立流表。接口根据队列的拥塞状态向发送端服务器主动发送CNP报文,服务器收到CNP后降低数据报文的发送速率达到缓解网络拥塞的目的。
中兴通讯数据中心交换机ZXR10 9900X、ZXR10 5960X系列设备采用自研芯片,通过自主可控硬件支撑IPCN功能,为跨智算中心训练业务提供全网络技术保障。
智算拉远网络技术展望
针对智算拉远无损技术,RoCE网络需更多地参与到流量控制和拥塞控制机制优化中。未来智算拉远网络中,下面几个技术方向是可能的发展趋势:
未来中兴通讯会紧跟时代步伐不断创新方案,与合作伙伴一起探索智算中心建设发展路径,在实践中不断取得突破,助力AI应用全面落地。