超万卡集群:架构革新与技术突破

发布时间:2025-03-27 作者:中兴通讯 陆光辉

        通用人工智能(AGI)作为人工智能(AI)领域的终极目标之一,其核心在于创造出能够理解、学习和应用知识,与人类思维相类似的系统。AGI的成功依赖于Scaling law,Scaling law表明,通过不断增加模型的规模和训练数据量,可以逐步提升模型的智能水平,最终实现AGI,这一研究成果在过去的几年里得到了广泛应用和验证。虽然DeepSeek横空出世,证明在算力有限的情况下,通过“模型-系统-芯片”和“软件-硬件”双闭环的系统协同创新优化也能带来极致性能,但最新的研究显示Scaling law依然有效,头部大模型企业仍在继续部署万卡乃至十万卡规模的智算集群,以确保大模型产品的竞争力。随着模型参数量从万亿迈向十万亿,模型能力更加泛化,大模型对智算算力的诉求进一步升级,十万卡甚至超十万卡集群将成为下一轮大模型竞赛的入场券,算力规模成为科技公司的核心竞争力。

        随着算力规模越来越大,智算中心的技术门槛呈级数提高,超万卡智算中心构建和运营面临着算、存、传、软件平台多要素协同的巨大挑战。为此,中兴通讯推出“AI Booster”超万卡集群解决方案(见图1),以高效、高稳、易维和开放理念为指引,打造开放生态的全栈电信级智能基础设施解决方案,助力运营商和行业推进超万卡集群演进落地。

 

极致算力:开放超节点提算效

 

        在大模型分布式训练场景下,集群规模的线性提升无法直接带来集群有效算力的线性提升,流水线并行技术跨服务器带来的GPU空转、MOE跨服务器通信带来的GPU空转是追求集群极致有效算力的关键挑战。解决这个挑战的关键是增加单服务器节点内的GPU数量,也就是超节点方案,通过机内的大带宽,让MOE跨服务器通信尽量在服务器内部完成,来减少GPU的空转,整体提升算力效率。

        中兴通讯超节点产品通过开放的OLink卡间高速互联技术,突破传统单机8卡限制,可实现线性扩展,实现更多GPU之间的高速互联,最大支持1024张卡,从而构建起更强大的网络和计算资源体系。OLink卡间开放互联技术,兼容现有ETH/RDMA等标准协议,允许不同厂商的设备高效地进行数据交换和通信,从而构建起更加灵活和扩展性强的计算环境。

 

海量存储:快速CKPT读写增存效

 

        在超万卡集群场景下,千万颗元器件满负荷高速运转,其故障概率大幅上升,断点续训成为常态,Checkpoint(CKPT)读写直接影响GPU算力的效率。为了提升存储效率,实现高吞吐,避免数据来回拷贝,需要引入快速CKPT读写技术来平衡故障损失带来的算力损耗。

        快速CKPT读写技术主要通过构建分布式缓存+高性能并行文件系统来实现。分布式缓存主要由三级组成,本地内存池组成一级缓存,本地NVMe SSD硬盘池组成二级缓存,高性能远端共享存储组成三级缓存。一级缓存仅快速保存CKPT单副本后继续训练,后续为了保障可靠性,再把内存中的CKPT保存到二级或三级缓存中,这样就构建了一个通用、灵活、高效的分层缓存机制,减少训练中断、恢复时间,提升训练算力利用效率5%~10%。

 

无损网络:双平面组网保传效

 

        超万卡集群在网络层面带来的最大变化是网络层次的增加,从而带来更多的额外故障点,包括骨干交换机、中间链路等,且超万亿模型一次训练成本巨大,网络中断或失败带来巨量资源浪费。为了确保网络不断,双上联双平面组网成为超万卡集群组网的一个重要选择(见图2),即每网卡负荷分担转发双平面,检测到单个平面异常自动选择正常平面转发;确保训练不断,训练任务无需迁移,也不需要触发断点续训,受影响的GPU保持网络带宽减半运行,网络恢复后自动切换到全速。通过双上联双平面组网增加硬件链路冗余,有效降低硬件单点故障带来的损失,网断训不断。

 

高效平台:断点续训增强保训效

 

        超万卡集群由数千台智算服务器+数千台交换机+数千台存储设备以及数万根光纤/数万颗光模块构成,训练任务涉及千万颗元器件满负荷高速运转,固有的元器件硬件失效率叠加海量的器件规模,导致硬件故障频发。以业界某头部企业16000张H100预训练场景为例,运行54天发生419次故障,平均每天中断8次。随着卡数的增加,故障发生概率越来越频繁,因此超万卡集群急需支持更有效、更快速、影响更小的自动断点续训功能。

        中兴通讯高效断点续训技术主要从3个方面增强,以减少异常中断对集群训练的影响。首先将CKPT同步机制增强为多级异步保存机制,即在训练进程把CKPT秒级存到内存后继续训练,后续再把内存中的CKPT保存到后端存储以降低CKPT保存时间;其次CKPT记录由定时记录增强为断点记录,这样在感知到故障后,及时保存当时的CKPT,断点续训模块重新加载断点时刻的CKPT,减少训练恢复成本;第三,针对续训模块进行多维度优化,包括在任务重调度时选择最优拓扑调度策略,保留健康Pod,重新调度故障Pod,采用多级缓存加载机制,让健康Pod内存秒级加载,故障Pod后端加载来降低加载时间。通过上述增强方案,大幅缩短了训练任务恢复时间,实现了高效断点续训。

 

智简运维:以作业保障为核心保维效

 

        在超万卡集群中,智算设备失效率高、集群运行故障率高和故障定位难度大是运维面临的三大挑战,业界急需智简运维方案提升超万卡集群运维效率。目前,中兴通讯大规模智算集群运维以训练作业保障为核心,通过训前预防、训中监控、训后优化来构建简化、高效运维方案。

        传统模式下,计算、存储、网络需要分别进行健康检测,然后进行汇总分析,效率低,一致性差,检查时间长。因此需要引入集中化、自动化健康检查方案来提高作业任务启动成功率。

  • 一体化健康检查:同时采集计算、网络、存储设备的所有信息进行联合健康检查,效率提升80%;
  • 一键自动健康检查:实现集群级以及作业级的各类资源在训前以及训中的健康度检查,输出健康报告;
  • 一体化故障定位:实现集群级以及作业级的统一故障定位,实现分钟级定位。

        智算中心各类资源多,训练任务多,存在故障感知时间长、故障解决慢等问题。因此需要引入全域监控和主动检测机制,加速故障发现。

  • 计算设备监控:对计算节点的资源利用与状态进行监控,包括CPU、GPU利用率,Pod状态,容器状态,主机进程等;
  • 网络设备监控:监控网络设备的状态,包括网络级、端口级的监控,拥塞监控等;
  • 存储设备监控:存储设备的状态监控、网络状态等;
  • 作业监控:监控各个作业对应的GPU卡、参数面交换机的状态,作业开始时间、持续时间、状态、作业KPI指标;
  • 训练平台监控:监控智算平台组件的监控状态。

 

        “梅花香自苦寒来”,中兴通讯紧跟人工智能技术的发展,践行“开放解耦、以网强算”战略,积极创新,在智算领域砥砺前行,持续深化超万卡智算中心产品研发,并探索孵化创新技术,为运营商和行业用户部署业界领先的超万卡智算基础设施提供全方位的支撑,赋能全社会产业“AI+”转型升级。