面向高带宽域的Scale-up算力高速互联技术

发布时间:2025-03-27 作者:中兴通讯 杨茂彬

        随着人工智能技术的发展,AI大模型参数规模急剧扩张,对计算能力提出极高要求,企业构建智算集群并引入并行计算技术加速模型训练。但在万亿参数规模模型的跨机并行训练中,出现了空泡现象,即模型数据传输时GPU因等待而无法充分利用,影响整体训练效率。混合专家模型引入的专家并行训练,进一步加剧了通信带宽和时延问题,使GPU空转时间增加,成为大模型训练的技术瓶颈。因此,实现超大规模智算集群内多GPU、多服务器间的高速互联,提高GPU利用率,是行业面临的重要挑战。

 

GPU机内高速互联关键需求

 

        为实现GPU高速互联、提升其利用率,业界推出超节点方案,即在单节点增加GPU数量。此举可显著减少跨节点通信,因机内带宽通常远高于跨机带宽,充分挖掘机内带宽潜力,成为降低GPU空转、提升利用效率的关键所在。GPU机内高速互联关键需求如下:

  • 更多GPU卡数可扩展互联需求:传统点对点互联模式只支持单机8卡GPU互联,需要有创新性的互联技术突破单机8卡限制,为GPU间提供高速、低延迟通信路径,打造更大规模高带宽域,显著提升单机扩展性与通信带宽。
  • 超高带宽需求:AI训练要求GPU集群高吞吐量互联,承载张量并行流量的带宽需达T比特量级。当前主流的Scale-up互联技术在物理层多使用以太网serdes,单通道(lane)速率高达224Gbps,远超PCIe(peripheral component interconnet express)的serdes速率。
  • 低延迟通信需求:Scale-up网络追求极致性能,要求时延控制在亚微秒级别,通过省略传统网络层、采用新信道编码方案及优化网络架构等手段,减少GPU因等待数据出现的闲置时间,提升系统整体性能。

 

中兴通讯GPU高速互联OLink解决方案

 

        为了实现国内GPU支持万亿模型训练,中兴通讯设计16卡以上超节点来搭建训练集群,缩短总体训练时间。

        我们结合自身在高速互联领域的技术优势,创造性提出以太+总线融合的GPU卡间高速互联技术方案(见图1)。机内和机间统一采用OLink交换高速互联方案,通过开放的OLink互联协议+交换芯片,提供开放的端到端GPU高速互联方案,满足当前及未来可预见的大模型训练场景下GPU间的高速通信需求。

 

OLink高速互联方案技术特征

        OLink高速互联方案融合顶尖技术,物理层运用差分传输与轻量FEC编码,实现低时延高带宽;链路层靠自动重传请求和循环冗余校验确保可靠传输;信用流控机制攻克拥塞,保障无损通信;凭借统一内存寻址和语义技术,助力GPU内存共享,赋能高效异构协同。

  • 物理层低时延高带宽:OLink总线在物理层对信号传输技术进行改进,减少干扰和噪声,提供信号质量和完整性;采用更先进的物理介质和轻量级FEC等传输技术,提高物理层数据传输速率和亚微秒级传输时延。
  • 链路层高可靠传输技术:OLink总线对错误检测和快速恢复技术进行优化,减少数据传输中的丢包和重传,同时提供链路级重传技术,保证数据的可靠传输。
  • 基于信用授权的流控技术:OLink总线针对机内GPU高速互联场景,通过基于信用授权的拥塞流控机制,解决多打一等复杂场景下无损通信关键问题,提供智算芯片超大规模组网能力。
  • 统一内存编址技术:允许Scale-up域内的GPU共享同一个虚拟地址空间,使得多个GPU可以直接互相访问对方的内存,方便模型参数和中间结果在显存间灵活分配与共享,简化异构计算编程模型。
  • 内存语义支持技术:允许在网络通信过程中对内存进行操作,通过特定的指令集和协议,实现数据在内存和网络之间的高效交互,为计算节点提供更灵活的操作方式,进一步提升计算性能。

 

基于OLink技术的智算芯片高速互联

        通过OLink互联协议+交换芯片,为GPU提供大规模端到端高速互联解决方案。

  • 借鉴业界成熟的以太网生态成为首选,复用以太网成熟的光模块、组网方案和运维能力;
  • GPU机内和机间的互联都使用OLink互联技术,
  • 互联网络和端侧设备解耦,各厂商的算力或存储设备均可以接入本方案的互联网络;
  • 引入更多合作伙伴,打造规模更大、成本更低的智算平台;
  • 在GPU端侧嵌入OLink IP,同时交换芯片支持在网计算;
  • 端侧OLink IP针对大模型应用场景,对以太网技术进行低延迟、无损和端网协同等方面的改进。

 

OLink未来演进

 

        GPU机内Scale-up域高速互联技术仍在持续迭代演进,OLink技术会在在网计算、光互联等方向持续演进。在网计算技术方面,AllReduce、AllGather等操作常用于深度学习梯度同步,将其卸载到交换设备,设备接收数据后规约计算,能减少网络流量,释放处理器资源,提升网络性能。伴随光通信发展,Olink技术将在GPU高速互联领域大展拳脚,实现更高传输速率、更低功耗与更远传输距离,为高性能计算注入强大动力,开启科技新篇章。