跨数据中心拉远训练技术及实践

发布时间:2025-03-27 作者:中兴通讯 潘亚峰

        随着大模型参数量从千亿、万亿向十万亿规模扩展,训练资源池也在逐步演进,从千卡、万卡到十万卡,甚至未来可能扩展到百万卡。然而,单个数据中心在供电、占地面积等方面存在限制,这促使国内外互联网厂商(如Google、AWS、Baidu等)开始尝试跨数据中心训练,多个数据中心之间的距离可能达到几十公里甚至几百公里。与此同时,国内各省份已经建设了多个相距几百公里的千卡数据中心。为了支持超千卡、万卡的训练需求,且避免重复建设,跨数据中心训练成为必然选择。此外,单个数据中心在多租户使用后均有零散的GPU资源,这些零散资源的整合同样需要借助跨数据中心训练来实现。因此,为了满足未来大规模模型训练的需求,我们需要探索在长距离(拉远)情况下的跨数据中心训练的整体解决方案。

 

跨数据中心拉远训练的挑战

 

        当前业界的分布式并行训练算法有TP张量并行、PP流水线并行、DP数据并行,各并行算法均要求无损和低时延传输,远距离的拉远传输和训练存在多个困难和挑战:

  • 挑战1:长距离的高带宽传输。以两个千卡数据中心为例,假设每卡参数面200Gbps,数据中心之间的拉远传输带宽需204.8Tbps(1024×200),并且是几百公里的长距传输。
  • 挑战2:长距离无损网络。任何参数面的丢包、错包均会导致模型训练任务的中断。数据中心内部RTT时延是微秒级别,交换机和网卡可以使用业界RDMA通用的DCQCN等流控算法。当两个数据中心拉远300公里,RTT时延达到3ms,需要毫秒级别的无损网络算法。
  • 挑战3:长距离训练性能优化。长距传输会导致性能恶化,以两个GPU使用200Gbps传输FP16精度的[4K,8K]矩阵为例,传输时间是2.5ms,如果拉远300km RTT时延增加3ms,传输性能恶化120%。为此,需要通过传输被计算隐藏、减小传输数据量、减小传输次数等算法优化性能。

 

跨数据中心拉远训练方案

 

        为应对上述挑战,中兴通讯推出跨数据中心拉远训练方案,关键技术包括OTN远距离传输技术、远距离拥塞流控技术、数据传输优化技术。

 

OTN远距离传输技术

        OTN全光网可作为智算拉远网络中最底层的传输网络,其技术特点是大带宽、高可靠,配合其他网络设备,实现全程无拥塞、无丢包。目前中兴通讯OTN采用C+L波段的光层,支持1524nm~1627nm波长范围,可用传输频谱12THz,单纤共可传输80波800Gbps OTN信号,单纤容量可达64Tbps。

        对于高可靠需求,OTN全光网具备毫秒级的保护功能和秒级的WSON恢复功能,且两者可相互配合实现永久的1+1保护,进一步提升网络的可靠性等级。

 

远距离拥塞流控技术

        远距离拥塞流控技术通过快速CNP(congestion notification packet,拥塞通知报文)和输出端口大缓存能力解决传统拥塞流控算法无法支持的远距离场景。

        针对源端拥塞,通过快速CNP功能,网络设备智能识别拥塞状态,主动发送CNP报文,准确控制源端的发送速率,既可以确保拥塞时的及时降速,又可以避免拥塞缓解时的过度提速,确保跨数据中心长距场景RDMA业务的低时延和高吞吐。

        远端拥塞以网络设备400GE接口100km光纤链路为例,100km单向会引入0.5ms固定传输时延,网络设备产生拥塞通过PFC/ECN通知源端设备停流的周期内,需要预留1ms的飞行报文缓存空间以防止链路丢包,当接口带宽为400GE时,所需缓存约为47.68MB(400GE×1ms/8),所需缓存空间已超过交换芯片单端口的缓存最大值,即产生远端拥塞。针对该场景,采用增加算力网关等方案满足数据中心间的无损数据传输需求。

 

远距离训练优化技术

        当前业界的分布式并行训练算法包括TP张量并行、PP流水线并行、DP数据并行。TP传输数据量占比超过95%,由于TP并行的通信数据量较大,且通信频次高,我们将TP引入的通信流量限制在服务器内部的高速域进行,仅将DP或PP的传输放在数据中心之间,以提升算力利用率和整体训练性能。跨数据中心拉远训练需要重点分析和优化DP和PP传输。

        对于跨数据中心采用PP传输,采用了计算和PP传输overlap技术,解决了PP传输拉远对性能的恶化(见图1)。以PP4层级为例,PP4进行mb1反向运算的同时,将先前mb3前向计算的结果发送给PP5层级,并接收PP3层级发送来的mb4前向运算结果;下一时刻,进行mb4前向计算的同时,将先前mb1反向计算出的结果发送给PP3层级,接收PP5层级发送来的mb2反向运算结果。由于计算时间远大于通信时间+远距离传输时延,使得拉远对传输造成的延时不会对整体性能造成影响。

        对于跨数据中心采用DP传输,我们重点采用了计算和DP传输overlap技术,错开不同PP的DP传输时隙,减小了跨数据中心所需的DP传输带宽(见图2)。以PP8为例,PP8在做完最后一个微批次的反向传播后再执行Reduce-scatter,在前向传播时,等前7个AllGather做完后再执行AllGather。这样同一个时刻只有一个PP组做DP拉远传输。

跨数据中心拉远训练实践

 

        中兴通讯和江苏电信合作进行了跨数据中心拉远训练验证。拉远训练验证利用江苏电信吉山机房的1024卡GPU和中兴通讯滨江机房的128卡GPU,验证模型采用LLaMA2-70B(见图3)。我们分别实践和验证了2个数据中心拉远训练和3个数据中心拉远训练。2个数据中心拉远使用吉山DC1 512卡+吉山DC2 512卡,拉远距离最大300km。3个数据中心拉远使用吉山DC1 512卡+吉山DC2 384卡+滨江DC3 128卡,2个吉山数据中心拉远距离最大300km,吉山和滨江拉远距离固定50km。对于拉远传输类型,分别验证了DP传输拉远隐藏技术和PP传输拉远隐藏技术,拉远带宽选用12.8Tbps。各种拉远场景的性能测试数据如表1所示。

        针对LLaMA2-70B模型,不管是采用DP传输拉远,还是采用PP传输拉远,在100km~300km的拉远距离,整体训练性能损失均小于2%,证明了拉远训练技术方案的可行性。

   

         跨数据中心训练面临远距离高带宽无损传输以及训练性能恶化等严峻挑战,针对这些难题,中兴通讯提出了一套融合OTN传输技术、远距离拥塞流控技术和高性能传算并行技术的综合解决方案,并在工程实践中得到了有力验证。展望未来,中兴通讯将持续探索,计划在万卡和超万卡训练环境中进一步实践和部署该方案,为推动跨数据中心训练技术的发展贡献更多力量。