选择语言

Scale-Up/Out/Across三域协同，突破算力上限

发布时间：2026-04-20 作者：中兴通讯杨茂彬

超大模型时代，模型参数呈指数增长，GPU单卡算力提升缓慢，算力瓶颈已转向系统协同，网络互联成为关键制约因素。Scale-Up架构受限于PCIe带宽，难以满足MoE、TP16~64等高并行需求；Scale-Out通过RoCEv2或InfiniBand构建跨节点网络，承载PP、DP通信，依赖RDMA与AllReduce实现万卡聚合，但面临Incast拥塞、ECMP负载不均、协议稳定性差等问题，导致训练效率下降；Scale-Across实现跨域异构算力池化，核心挑战在于低时延与强一致性保障。单一优化难破局，亟需构建Scale-Up/Out/Across三位一体的高速互联体系，实现带宽、时延、扩展性的协同突破，支撑万卡级高效训练。

智算网络Scale-Up/Out/Across业界现状与问题挑战

当前智算网络围绕Scale-Up（纵向扩容）、Scale-Out（横向扩展）、Scale-Across（跨域互联）三大模式协同演进，支撑万卡级乃至十万卡级智算集群落地。但这三大模式均面临显著技术与产业挑战，适配大模型训练推理仍有瓶颈。

Scale-Up网络聚焦超节点内高速互联，以英伟达NVL72超节点为代表，通过NVLink和NVSwitch实现72卡GPU算力聚合，但NVLink生态私有封闭且与Scale-Out网络无法有效协同。业界也相继出现UALink、SUE、ESUN等总线型和以太型互联技术，整个Scale-Up互联生态较为碎片化，短时间内难以收敛统一。

Scale-Out以RoCEv2为主，从千卡向万卡扩展时瓶颈凸显：首先，传统CLOS拓扑随着节点增多，端口密度与互联带宽呈指数级增长，设备成本与功耗激增；其次，AI流量的突发与聚合导致Incast拥塞丢包在万卡规模下被放大；此外，ECMP负载均衡流量分配不均导致链路忙闲不均，网络吞吐性能无法有效释放；同时，RoCE协议在万卡规模下的稳定性不足，生态碎片化导致不同厂商设备兼容性差，进一步制约扩展效能。

Scale-Across已成为突破单DC极限，实现跨数据中心协同训练的必然趋势。英伟达推出Spectrum-XGS Ethernet跨域互联技术，通过自适应距离拥塞控制、精准延迟管理等特性，将多个分布式数据中心整合为千亿级AI超级工厂。然而，Scale-Across网络长距互联面临RTT高（>1ms）、丢包率高、带宽收敛严重等问题，同时不同智算中心的拓扑、设备、协议不统一，协同调度难度大，跨域算力调度效率低，难以实现全域算力资源的灵活适配。

中兴星云智算网络一体化方案

中兴通讯推出融合Scale-Up/Out/Across模式的星云智算网络一体化方案，以自研芯片为核心，构建“端-机-域”三级架构，实现全链路高速互联，打破网络割裂瓶颈，支撑万亿参数大模型训练（见图1）。

Scale-Up：纵向扩容破局，筑牢单节点算力根基

针对传统PCIe架构带宽受限（<100GB/s）、仅支持8卡互联的短板，中兴通讯依托自研凌云芯片与OLink高速互联总线，创新构建支持32卡及以上超节点的机内互联架构，GPU间互联带宽提升至400GB/s以上，通信时延低至百纳秒级，突破传统TP8限制，适配MoE模型对高吞吐、低时延通信的严苛需求。同时OLink集成在网计算能力，卸载集合通信操作，进一步降低通信时延，有效消除GPU空等现象，GPU利用率提升超40%。

Scale-Out：横向扩容提质，打造高可靠集群网络

基于自研天屹芯片和定海RDMA网卡，星云智算网络方案构建“端网协同”机间网络，实现千卡级到百万卡级无缝扩展。架构支持两种CLOS模式，单PoD支持16K GPU，多PoD可演进扩展至百万GPU，满足未来10年算力需求。针对大规模集群痛点，采用ENCC无损技术确保吞吐率>90%、丢包率<0.0001%，结合iGLB技术实现流量均衡；双平面冗余组网搭配ARN技术，实现亚毫秒级故障切换，保障集群稳定运行。

Scale-Across：跨域互联赋能，织就全国算力一张网

针对单DC算力极限、跨域训练痛点，中兴通讯提出Spine直连+OTN+IPCN跨域方案，助力构建全国级算力一张网。Spine层8GB超大缓存交换机吸收长距突发流量，IPCN技术主动预测拥塞，避免失控；支持多厂商GPU异构互联，单DC可扩展至7个PoD，支撑十万卡级集群，跨PoD收敛比8:1。工程验证显示，300km拉远场景下，1024卡训练算力影响<0.13%，推动“算力即服务”落地。

星云一体协同，打通算网全域价值

星云智算网络一体化解决方案，将Scale-Up、Scale-Out、Scale-Across三大能力深度融合，形成“机内提效、机间扩容、跨域整合”的全链路协同体系，既解决了单机性能瓶颈，又实现了大规模集群的稳定扩展，更打破了地域与厂商壁垒，实现全域算力资源的灵活调度。该方案有效突破智算网络多维度瓶颈，但业界整体仍面临高端芯片自研、生态适配、运维复杂度控制、核心器件成本优化等共性挑战，未来中兴通讯将持续深化技术创新，推动三大能力的更深度协同，助力智能算力网络高质量发展。

中兴通讯以自研定海、凌云、天屹芯片为基石，构建端-网-云全栈自主可控体系，通过Scale-Up、Scale-Out、Scale-Across分别解决单机算力密度、集群规模可靠性、资源协同弹性扩展问题，实现从千卡、万卡到十万、百万卡平滑演进。三域融合在国产GPU关键期突破算力上限，推动中国智算网络从跟随走向引领。未来中兴通讯将深耕算网一体，以星云智算网络助力AI产业迈向全球领先。