随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级。在此背景下,超万卡集群已成为大模型基建军备竞赛的标配,它将有效压缩大模型训练时间,实现模型能力的快速迭代。
然而,超万卡集群的建设也带来诸多挑战。如何提升智算服务器单机算力密度,以及大规模集群算力使用效率都成为亟待解决的问题;同时高能耗、高密度且高弹性数据中心机房的建设,给大规模集群运维提出了新的挑战。
智算服务器硬件架构的演进
回顾整个AI的发展路线,最早的需求是机器学习,通过优化模型参数提升预测和分类准确性,这类小样本训练没有太大计算量和太复杂的交互,此时智算服务器架构是Standalone GPU卡直接挂在CPU下。
2012年,AlexNet神经网络模型在ImageNet挑战赛大获全胜,正式开启卷积神经网络在图像处理相关领域的应用。此类模型需要大量的样本数据反复进行训练,同时需要数据并行,GPU卡间频繁上演AllReduce交互。智算服务器架构进入多卡并行阶段,多卡通过PCIe Switch P2P进行数据交互。
2018年,Transformer和LLM模型崛起,超大规模参数量需要切分放到多卡3D并行,智算服务器中多GPU卡通过大带宽总线Mesh直连或Switch互联。在Scaling law定律的驱使下,Scale-up网络带宽和性能越来越强,互联的GPU卡数越来越多。GPU互联拓扑演进历程如图1所示。
智算服务器和集群算力提升策略分析
我们把集群算力提升分解为智算服务器单机算力提升和集群线性加速比,其中智算服务器单机算力提升受限于GPU芯片架构和制程、内存和I/O访问瓶颈、卡间互联带宽和拓扑等因素,集群线性加速比则取决于节点间的通信能力、并行训练框架、资源调度等因素。在超万卡集群中,需要运用系统工程方法,通过对超万卡集群网络的精细化设计、软硬件全栈整合优化,综合提升集群算力使用效率。
服务器单机算力提升路径
集群总算力为GPU单芯片算力、TP(张量并行)数量、PP(流水线并行)数量和DP(数据并行)数量的乘积。GPU单芯片算力提升面临芯片工艺的边际效益递减,die size、interposer size和制程逼近物理极限,同时国内芯片工艺受限,单芯片算力受限,不能匹配算力需求的发展,因此通过增加TP、PP和DP数量提升算力需求更加迫切。但由于能够收敛的Batch_size(Batch_size≥2×Microbatch×PP数量×DP数量)也有上限,即PP×DP数量有最大值,所以通过增加TP数量来提升总算力是相对可行的方案。
当前训练服务器GPU模组类型有NVIDIA HGX 8GPU模组和OCP 8OAM GPU模组,前者GPU采用NVlink Switch进行互联,后者通过GPU自带总线接口Full Mesh直连。后续为了提升单机TP数量,NVIDIA定义了MGX架构,可支持16GPU/32GPU,基于NVswitch进行全互联;对于国产GPU厂商,由于GPU自带端口数量受限,TP16及更多数量GPU情况下,就只能通过GPU总线Switch或RoCE Switch互联。
集群算力提升路径
通过简单增加服务器数量以实现计算集群的横向扩展(Scale-out)策略,也遭遇了效率与可扩展性的瓶颈。首先GBS(global batch size)不能无限增长,导致在集群规模增大到一定程度后,HFU(hardware FLOPs utilization)出现明显下降;其次,大参数量模型并行中Tensor并行或MOE类型的Expert并行都会在GPU之间产生大量的通信,并且这部分通信很难与计算进行overlap。而当前典型单机8卡服务器限制了Tensor并行的规模,Expert并行只能通过机间Scale-out网络,机间网络带宽400Gbps相对较低,且网络时延大,因此通信占比提高,这都会导致HFU无法提高。
通过构建更大的HBD(high bandwidth domain)系统,以scale-up方式提升系统算力,是解决上述问题的有效途径之一。HBD是一组以超带宽互联GPU的系统,把模型并行中数据量大且计算无法overlap传输的部分,限制在一个HBD内完成,HBD内GPU-GPU通信带宽相对于跨HBD的GPU-GPU通信带宽提升8倍以上。
图2是典型的HBD超节点系统拓扑,HBD超带宽互联不仅用于GPU之间,并且将其应用到GPU-CPU/Memory的超大带宽互联,采用异步的内存卸载(memory offload)方式也可以降低对时延的约束,并发利用多节点CPU/Memory,发挥HB互联的带宽优势。另外,当前内存卸载已具备一定软件生态基础,例如Zero offload技术。
综上所述,超节点是一个以超大带宽互联16卡以上GPU-GPU以及GPU-CPU/Memory的Scale-up系统,以HBD超节点为单位,通过传统Scale-out扩展方式可形成更大规模、更高效的算力集群。超节点Scale-up和Scale-out网络平面是否会融合,还在持续演进中。
超节点系统的硬件实现
CableTray整机柜多卡和正交机框多卡都是超节点实现的具体方式(见图3),具备高算力密度、高互联带宽、高功率密度和高能效等关键因素;单柜或单框可以支持至少32GPU及以上GPU互联的Scale-up系统,以HBD超节点为单位,通过Scale-up接口搭建更大规模高带宽域,并依托传统Scale-out扩展方式形成更大规模、更高效的算力集群。
两种硬件架构方案应对不同的客户需求,也对IDC机房环境和部署要求有差异。两种硬件架构互有优劣,也各有不同的工程实现难点。
正交整机框的典型特征有:
Cable Tray整机柜的典型特征有:
智算时代驱动传统IDC向AIDC转型升级
智能算力带来高度集中化的GPU集群,伴随着GPU芯片热设计功耗(TDP)的提升,单机柜功率由8kW以下风冷通用算力设备升级至60kW~120kW以上液冷智能算力设备,机柜功率密度宽幅变化,风液混合或全液冷制冷模式已经到来。客户流动常态化也带来多元化算力需求,对数据中心的灵活适配、动态调节能力提出了新的挑战。
多元异构算力的超万卡集群是未来发展趋势,目前中兴通讯有超节点算力服务器机型,已具备万卡级智算中心建设能力,正推进超万卡集群演进落地。中兴通讯在智算中心基础设施中广泛开展冷板式液冷、智能母线、AI节能等关键技术应用,并基于智算服务平台TECS等核心能力实现计算、存储、网络等资源的高效管控和灵活运营,可面向AI任务提供超万卡并行训练的服务能力,打造行业领先的智算中心样板间。