2025年至今,全球大模型的发展步入成熟发展期,技术叙事愈发宏大:OpenAI推进“百万GPU”战略布局,并开始部署“星门计划”;xAI推出由20万张H100 GPU卡训练的Grok-4模型,采用标准以太网架构,在多项基准测试中表现优异;Google则以TPU v6/v7与自研OCS(全光交换)网络为技术底座,支撑Gemini 3.0体系化演进。我们认为,模型演进的趋势已定——Scaling Law的生命力依然顽强,但算力规模的扩张正逼近网络的通信墙,智算业务从规模至上转向有效算力,百万级集群呼之欲出,网络不再是AI算力的连接配角,而是决定其上限与效率的中枢神经系统,这迫使机间网络(Scale-Out)标准加速收敛,并引爆机内互联(Scale-Up)的百花齐放。
Scale-Out:技术标准归于收敛,GSE与UEC各领风骚
在机间网络(Scale-Out)领域,核心诉求始终是大规模互联、极致带宽利用率以及确定性的低延迟。2025年以来,随着以太网技术的飞速演进,RoCE(RDMA over converged ethernet)在很大程度上已经开始替代传统的IB(InfiniBand),尤其是在追求成本效益和开放性的互联网领域。RoCE的持续演进,是为了在性能上进一步超越IB。
UEC 1.0确立下一代以太网传输范式
海外由超级以太网联盟(UEC)主导的UEC规范在2025年6月发布了1.0正式版。UEC不仅是对以太网的修补,而是从物理层到传输层(UET协议)的彻底重构。其核心创新在于:链路层,LLR(link layer retransmission)与CBFC(credit-based flow control,基于信用的流控)协同实现“准无损”;传输层,通过报文级喷洒(packet spraying)技术,将智算网络的整体带宽利用率提升至接近100%。
传统的以太网丢包依赖传输层进行端到端重传,这在超大规模集群中会导致极高的尾部延迟,LLR实现了逐跳(hop-by-hop)的本地修复机制。当交换机检测到链路抖动导致的微小丢包时,直接在物理链路层完成重传,无需触发全局重传。这种近场恢复能力将丢包对模型训练的影响降到了物理级最低,是支撑百万卡规模运行的基石。此外,传统RoCE依赖的PFC(优先流控)机制容易引发死锁或PFC风暴,CBFC采用主动式信用额度管理,发送方必须获得接收方的信用额度授权才能发送数据。这种机制从源头避免了交换机缓存溢出,实现了真正的确定性转发。
在传输层,UEC彻底打破了传统以太网基于流的ECMP负载均衡限制,通过报文级喷洒技术,UET协议允许将同一个AI训练任务的海量数据切分为细粒度报文,均匀分布到网络拓扑中的所有可用路径上,将智算网络的整体带宽利用率提升至接近100%。UET同时支持选择性重传(selective retransmission),网络仅需补发真正丢失的报文,而非回退N个报文全部重传(go-back-N),极大节省了带宽资源,缩短了任务完成时间(JCT)。
目前,最新发布的102.4T交换芯片,包括博通(Broadcom)的Tomahawk 6、美满科技(marvell)的T100,英伟达(NVIDIA)的spectrum6,都开始支持UEC协议。UEC协议下一步的规模部署,标志着以太网在AI领域完成了对IB协议的全面超越。
GSE:中国的UEC,以N2N模式彰显独特优势
国内方面,由中国移动等单位牵头定义的GSE(Global Scheduling Ethernet)已成为中国智算网络的标杆性标准。GSE在技术理念上与UEC志同道合,但其在工程实现上更具中国智慧。
N2N(network-to-network)模式是GSE相比UEC最显著的技术分水岭。UEC的诸多特性(如UET协议)高度依赖于网卡的同步升级,这意味着用户必须采购全新的、支持UEC标准的网卡。而GSE主推N2N模式,核心技术创新主要在网络侧实现。它通过交换机侧的全局资源感知和报文动态切片,兼容现有的标准RoCE v2网卡。同时GSE创新容器(container)技术,基于容器而非报文的喷洒技术,同时满足了流量喷洒的均衡性和降低报文乱序的概率。这种不依赖网卡升级的特性,极大降低了旧有集群的升级门槛,支持异构网卡环境下的统一无损转发,尤其适合中国的部署现状。
2026年下半年,预计支持GSE N2N的51.2T国产化芯片将会发布,标志着国内在智算Scale-Out领域真正有了原创性的产品。
Scale-Up:百花齐放,技术路线尚未收敛
在机内/机柜内扩展(Scale-Up)领域,2026年虽然英伟达凭借NVLink 6.0及其闭环生态在性能上依然领先,但海外以UALink和SUE/ESUN为代表的开放阵营正通过不同的技术路径实现快速超车。
2025年,AMD、Intel、Google等巨头联合发布UALink 1.0规范。该规范保留了开发者熟悉的总线编程模式,支持内存一致性协议,使得GPU之间可以像访问本地内存一样互相读写。通过引入以太网PHY,UALink突破了传统PCIe的距离限制,支持多达1024个加速器组成的超大规模Fabric域。支持UALink的芯片预计2026年发布。
博通(Broadcom)则代表了另一条路径——网络型路线。博通推出的SUE(Scale-Up Ethernet)、OCP发起的ESUN(Ethernet for Scale-Up Networking),主张利用以太网生态的极致成熟度来实现Scale-Up。方案去除了复杂的IP层,修改了MAC层部分逻辑,通过简化报文头和报文转发逻辑,实现极致低延迟。博通Tomahawk6已经兼容支持部分SUE特性,支持全部SUE特性的TF2预计2026年发布。
与Scale-Out已基本收敛至以太网不同,机内互联在总线型与网络型之间尚未达成最终统一,Scale-Up目前仍处于百花齐放的战国时代。这种技术路线的博弈,预示着未来2—3年内,谁能率先提供比肩NVLink性能且具备开放生态的互联方案,谁就将获得最后的胜利。
底层硬件技术的快速发展
为了支撑百万卡集群的宏伟蓝图,底层硬件技术也在经历翻天覆地的变化。
112G SerDes规模部署,224G SerDes 2026年商用部署,448G SerDes已在路上
SerDes是定义智算带宽的元技术之一。在Scale-Out侧,112G SerDes海外和国内方案已成熟,并实现大规模部署。224G SerDes海外头部芯片厂商推出新一代芯片,国内厂商在积极跟进,我们判断国内在2年内会有自研224G SerDes芯片推出。同时,448G SerDes的开发已经开始。448G SerDes在封装、信号完整性、散热上会有很多新的技术挑战,预计英伟达用于Scale-Up的nvswitch6会是首个采用448G SerDes的芯片。
电的演进,从PCB到NPC和CPC
随着SerDes速率从112Gbps迈向224Gbps甚至448Gbps,信号频率的提升使传统PCB走线面临严峻的插损挑战。针对该挑战有NPC(near package cable)和CPC(co-packaged copper)两种方案。NPC方案引入Flyover Cable技术,通过芯片—PCB NPC插座—电缆—光模块的路径,利用电缆替代长距离PCB走线,显著优化信号质量。CPC芯片封装直接出电缆,信号直接从芯片封装经Flyover电缆传至模块。我们判断224G时代NPC是一个更好的选择,CPC还处于探索阶段。
光的演进:LPO是可选路径,CPO是必由之路,NPO是解耦选择
光模块功耗已占到网络总功耗的50%以上。LPO(线性驱动可插拔光模块)在2025年下半年经历了从质疑到规模应用的过程,其通过省去DSP显著降低了时延和功耗。然而,面对1.6T及更高速率,CPO(共封装光学)会是终极解决方案,已在部分头部客户开始小规模部署。NPO(近封装光)可以把switch芯片/GPU芯片和光引擎(optical engine)解耦,得到了部分国内互联网和GPU厂商的看好,在国内开始试点。预计CPO会在102.4T时代得到更多的部署,在204.8T时代成为主流部署方案。
智算网络,开放与自研的共振
中兴通讯认为,AI大模型时代的智算网络正处于前所未有的剧变期。我们坚持开放解耦与深耕底层的双轮驱动战略。在Scale-Out领域,我们积极拥抱收敛趋势,作为GSE的核心参与者,中兴通讯已经推出支持GSE的框盒智算方案,通过N2N模式为客户提供无需更换网卡即可实现的无损智算体验。在Scale-Up领域,我们参与百花齐放的竞争,通过牵头Clink并深耕Onlink,致力于打破私有协议垄断,为国产GPU和自研加速器构筑高品质的超节点连接。
智算网络的演进是一场长跑,中兴通讯将继续秉承开放合作的姿态,与全球及国内产业界伙伴一同,在百万卡时代的算力洪流中,架设起坚实、高效的信息通途。