随着人工智能技术的发展,AI大模型参数规模急剧扩张,对计算能力提出极高要求,企业构建智算集群并引入并行计算技术加速模型训练。但在万亿参数规模模型的跨机并行训练中,出现了空泡现象,即模型数据传输时GPU因等待而无法充分利用,影响整体训练效率。混合专家模型引入的专家并行训练,进一步加剧了通信带宽和时延问题,使GPU空转时间增加,成为大模型训练的技术瓶颈。因此,实现超大规模智算集群内多GPU、多服务器间的高速互联,提高GPU利用率,是行业面临的重要挑战。
GPU机内高速互联关键需求
为实现GPU高速互联、提升其利用率,业界推出超节点方案,即在单节点增加GPU数量。此举可显著减少跨节点通信,因机内带宽通常远高于跨机带宽,充分挖掘机内带宽潜力,成为降低GPU空转、提升利用效率的关键所在。GPU机内高速互联关键需求如下:
中兴通讯GPU高速互联OLink解决方案
为了实现国内GPU支持万亿模型训练,中兴通讯设计16卡以上超节点来搭建训练集群,缩短总体训练时间。
我们结合自身在高速互联领域的技术优势,创造性提出以太+总线融合的GPU卡间高速互联技术方案(见图1)。机内和机间统一采用OLink交换高速互联方案,通过开放的OLink互联协议+交换芯片,提供开放的端到端GPU高速互联方案,满足当前及未来可预见的大模型训练场景下GPU间的高速通信需求。
OLink高速互联方案技术特征
OLink高速互联方案融合顶尖技术,物理层运用差分传输与轻量FEC编码,实现低时延高带宽;链路层靠自动重传请求和循环冗余校验确保可靠传输;信用流控机制攻克拥塞,保障无损通信;凭借统一内存寻址和语义技术,助力GPU内存共享,赋能高效异构协同。
基于OLink技术的智算芯片高速互联
通过OLink互联协议+交换芯片,为GPU提供大规模端到端高速互联解决方案。
OLink未来演进
GPU机内Scale-up域高速互联技术仍在持续迭代演进,OLink技术会在在网计算、光互联等方向持续演进。在网计算技术方面,AllReduce、AllGather等操作常用于深度学习梯度同步,将其卸载到交换设备,设备接收数据后规约计算,能减少网络流量,释放处理器资源,提升网络性能。伴随光通信发展,Olink技术将在GPU高速互联领域大展拳脚,实现更高传输速率、更低功耗与更远传输距离,为高性能计算注入强大动力,开启科技新篇章。