创新智算网络为AI提供强力引擎

发布时间:2025-03-27 作者:中兴通讯 吕二春

超万卡智算集群的网络核心需求和挑战

 

        AI大模型近年来迎来爆发式发展,模型参数量呈指数级增加,算力需求规模已从千卡跃升到万卡甚至十万卡级别。在此背景下,设计高效的集群组网方案对提升AI集群训练效率至关重要。

        从目前的实践和理论分析来看,超万卡智算网络主要存在如下核心需求和挑战:

  • 大规模组网需求

        大规模的算力需求意味着大规模的网络互联需求。交换机的数量急剧增加,为有效控制网络层级和网络路径跳数,需要提升交换容量和端口密度,满足大规模的接入需求。

  • 网络性能挑战

        超万卡的组网规模下,网络层级变多,节点规模剧增,网络中出现拥塞的概率大大增加,网络的转发性能面临更高的挑战,需要采用更高效的网络负载均衡算法和更精细化的拥塞控制算法来提升网络性能。

  • 流量模型新需求

        随着MOE(mixture of experts)等稀疏模型的出现,MOE模型采用的EP(expert parallelism)并行增加了all-to-all等新的流量模型。相对于现有稠密模型的TP(张量并行)/PP(流水线并行)/DP(数据并行)并行方式,需要网络侧同时满足传统PP/DP轨道化的通信需求以及EP的all-to-all通信需求。

  • 网络可靠性提升

        相比千卡集群,超万卡集群在设备故障率不变的情况下,设备故障频次会极速增长,任意网络组件的单点故障都可能造成一个训练任务的中止,对于一个超万卡的集群来说,对GPU算力的损失更为严重,因此需要提升GPU参数面网络的高可用设计,降低网络故障影响。

  • 运维面临挑战

        超万卡组网规模下,参与训练任务的节点急剧增加,如何保障网络的稳定运行成为挑战。网络需要提供高精度的网络监控能力、故障快速分析能力和故障预测能力,确保快速发现故障、解决故障和预测故障。

 

中兴通讯超万卡智算网络解决方案

 

        大规模的智算网络是一个系统化的解决方案,单独从某一个点进行优化无法从根本上解决问题。为破解智算网络难题,中兴通讯凭借自身在智算领域积累的丰富经验和对智算网络的深刻理解,打造包含网卡、交换机的端到端全自研网络产品体系,对智算网络进行全方位增强(见图1)。

 

  • 全自研400G大容量国产化智算网络解决方案

        中兴通讯400G智算网卡+400G智算交换机,提供全场景产品解决方案。其中智算网卡采用自研定海芯片,支持可编程,灵活支持自定义RoCE拥塞算法;智算交换机采用自研交换芯片,开放灵活扩展,具备可编程能力,支持面向未来的智算网络新特性快速研发。

  • 算网联动,提供更精确的业务调度和流量调度

        针对大模型并行流量特征,方案根据网络拓扑制定更为合适的训练任务并行策略,比如实现DP/PP的亲和性调度,让计算和网络进一步深度融合,实现计算效率最大化。

        在流量负载均衡优化方面,iGLB(intelligent global load balance)从AI调度平台获取训练任务的模型拆分信息,根据实际流量模型进行全局网络路径调度,实现全网的流量负载均衡,从根本上避免网络拥塞。

  • 升级版端网协同拥塞流控机制

        当前DCQCN拥塞流控算法由于网络侧的ECN拥塞反馈信息有限,拥塞流控整体比较粗放,流量恢复缓慢,降低了网络吞吐能力。中兴通讯基于自研的端网产品,自研ENCC端网协同拥塞流控协议,做到更精准的流量控制,有效提升网络吞吐能力。

  • 扩大HBD域,超节点满足更大模型的EP需求

        当前机内的GPU间通过私有高速互联协议提供一个HBD域,满足TP等高速互通的需求。随着模型参数规模的增大和MOE的出现,对于HBD域的需求越来越大,而当前GPU厂商交换能力较弱,无法提供构建HBD的网络方案。中兴通讯借助自身网络优势,打造OLink高速互联协议,可以为GPU提供HBD高速互联方案。

  • 双平面组网,提升网络可靠性

        为了避免网络单点故障导致整个训练任务终止,中兴通讯提出了RoCE网络双上联双平面组网方案。每个GPU通过2个网口连接2个独立的物理网络平面,任意平面的网口、光模块出现故障,GPU仍然可以保证正常的网络通信,为光模块的替换和训练保存赢得宝贵时间,同时有效提升了GPU算力的利用率。

  • 运维能力提升

        为确保智算网络的高可用性,中兴通讯基于自研的高性能交换机提供毫秒级网络监控能力,网络管控平面提供任务级的网络监控,光模块关键设备具备故障预测能力,实现分钟级故障自动检测和定位,通过提供丰富、高效的网络运维手段,保障智算网络的持续稳定运行。

 

中兴通讯智算网络解决方案优势

 

        中兴通讯践行“以网强算”的技术路线,端到端自研增强网络,从端网整体提升智算网络性能。

  • 算网深度融合,提供最佳的全局资源调度能力;
  • 端+网全自研,进行深度定制优化,提供更优的拥塞流控能力;
  • 双平面组网,提供更高的网络可靠性;
  • 精准高效运维,提高网络的可用性。

 

        中兴通讯秉持“以网强算”的技术理念,致力于端到端自研网络的深度增强,从端网整体出发,为智算网络解决方案带来革命性的提升。中兴通讯端到端全自研智算网络解决方案,不仅满足了智算业务对于超大规模、超高吞吐、超低时延、超高可靠性的严苛要求,更以其卓越的性能和稳定性,契合当今智算领域的网络需求。我们坚信,这一创新方案将引领智算网络迈向新的高度,为AI大模型时代的发展注入强劲动力。