选择语言

基于GSE技术的十万卡级组网：智算中心Scale-Out网络新路径

发布时间：2026-03-27 作者：中兴通讯王恒

在人工智能技术浪潮的驱动下，智算数据中心迎来跨越式发展机遇。大模型训练与推理对算力的需求呈指数级激增，推动智算中心从小规模集群加速向超大规模集群演进，十万卡级GPU组网已成为行业竞争的核心基础设施壁垒。但海量GPU节点的高频数据交互使网络带宽需求同步激增，通信效率成为制约训练效率的关键瓶颈。

为破解当前网络架构中算力与网络的适配难题，中国移动联合产业伙伴自主创新研发出全调度以太网（Global Scheduling Ethernet，GSE）技术体系。该技术通过深度优化以太网架构，构建“主动调度+精准分发”的传输机制，为智算数据中心Scale-Out网络提供全新研究视角。

相比RoCE技术，GSE技术创新提出报文容器（packet container，PKTC）、全局动态调度队列（dynamic global scheduling queue，DGSQ）等概念。通过对报文容器的转发与逐容器喷洒，实现单流在多路径上的均匀分担，大幅提升带宽利用率；通过DGSQ搭建拥塞控制体系，引入授权请求与全局调度机制，确保流量负载不超过网络承载上限，从根源上规避拥塞丢包。采用GSE技术搭建十万卡级网络成为当下热点研究对象。GSE组网架构依据互联方式的差异可划分为三层组网架构和多PoD互联架构两类，采用层次化、模块化方式设计，适配不同应用场景需求。

三层组网架构

GSE三层组网架构采用搭载51.2T芯片的盒式交换机搭建，单台交换机可提供128个400GE端口，按无收敛方式设计。

根据层次化思想，网络分为三层：接入层、转发层、互联层。如图1所示，接入层由GSP（global scheduling processor，全调度以太网处理节点）设备构成，用于将GPU服务器接入网络；转发层由GSF-T2（global scheduling fabric，全调度交换网络）设备构成，用于 PoD（point of delivery）内GSP之间的转发；互联层由GSF-T1设备构成，用于 PoD间的互通。

根据模块化设计，网络分为SU（scale unit，扩展单元）、 PoD、DC（data center，数据中心）等不同层级的模块。8轨部署中的8台GSP设备及其所连接的服务器共同构成一个SU模块；多组SU及其共同相连的GSF-T2设备组成一个 PoD单元；多个 PoD及其之间互联的GSF-T1设备组成一个DC网络。

组网部署

每台服务器搭配8张GPU卡，提供8个400GE端口，按需选择零轨部署或轨道化部署模式。GSP设备独立部署，其中64个400GE端口用于与服务器互联，剩余64个端口与64台GSF-T2设备互联。GSF-T2设备独立部署，其中64个400GE端口通过Full Mesh方式与GSP设备互联，另外64个端口与多平面部署的GSF-T1设备互联。GSP-T1设备独立部署，为提高组网规模，采用多平面设计架构。最大可分为64个平面，每个平面内部署16台GSF-T1设备，分别与其他 PoD中对应序号的GSF-T2设备互联。单个 PoD可提供4K卡规模部署，三层组网架构最大可接入128PoD，整网GPU卡容量最大可达512K。若需支撑10万卡规模部署，仅需配置25个PoD单元即可满足需求。

功能部署

GSP设备、GSF-T2设备、GSF-T1设备之间部署EBGP协议，通过BGP扩展属性将GSE所需的DPORT信息、GSPID信息同步发布至整个网络。

部署GSE N2N功能，GSP设备作为进入/退出GSE域的接入点，部署基于容器的转发策略、GSE头信息的封装与解封装、授权请求与响应处理及数据排序等功能；GSF设备作为GSE域内转发节点，部署GSE流量识别、基于GSE头信息的多路径转发等功能。

GSP设备与服务器相连的端口按需部署PFC（priority-based flow control，基于优先级的流量控制）功能，当源端口+优先级对应的缓存使用量到达阈值时，可向源服务器发起PFC反压，实现源端速率调控。

流量模型

同GSP设备下转发，源服务器网卡发送IP报文，经GSP设备，直接以IP报文形式转发至同一GSP设备下的目的服务器网卡。

同 PoD内服务器间转发，源服务器网卡发送IP报文，经源GSP设备封装GSE头信息，采用容器喷洒方式至GSF-T2设备，GSF-T2设备根据GSE头信息转发至目的GSP设备，目的GSP设备解封还原为IP报文，转发至目的服务器网卡。

跨 PoD转发，源服务器网卡发送IP报文，经源GSP设备封装GSE头信息，容器喷洒至GSF-T2设备，GSF-T2设备根据GSE头信息转发至GSP-T1设备，GSF-T1设备进一步转发至目标 PoD的GSP-T2设备，最终经目标 PoD的目的GSP设备解封还原成IP报文，转发至目的服务器网卡。

多PoD互联架构

GSE多PoD互联架构同样采用搭载51.2T芯片的盒式交换机搭建，单台交换机提供128个400GE端口，按无收敛方式、层次化、模块化设计。

组网部署

如图2所示，每台服务器搭配8张GPU卡，提供8个400GE端口。按需选择零轨部署或轨道化部署模式。GSP设备独立部署，其中64个400GE端口与服务器互联，剩余64个端口连接至64台GSF设备。GSF设备独立部署，其中64个400GE端口通过Full Mesh模式与GSP设备互联，另外64个端口与BORDER设备互联。BORDER设备独立部署，其中64个400GE端口采用Full Mesh方式与GSF设备互联，剩余64个端口连接至用于PoD间互联的CORE设备。CORE设备独立部署，为扩大PoD间互联规模，采用多平面方式部署。共设置64个平面，每个平面内部署16台CORE设备，分别与其他PoD中对应序号的BORDER设备互联。单个PoD可提供4K卡（400G带宽/GPU）规模部署，最大可实现128个PoD互联，整网GPU卡容量最大可达512K。支撑10万卡规模部署时，需配置25个PoD单元。

功能部署

PoD内采用GSE N2N方式部署，PoD间采用IP RoCE方式部署。

对于PoD内，GSP设备、GSF设备、BORDER设备之间部署EBGP协议，通过BGP扩展属性发布GSE所需的DPORT信息、GSPID信息。部署GSE N2N功能，GSP设备和BORDER设备作为接入/退出GSE域的接入点，GSF设备作为GSE域内转发节点。GSP设备与服务器之间按需部署PFC功能，当拥塞时可以向源服务器网卡发起PFC反压，实现源端速率调控。

对于PoD间，BORDER设备与CORE设备之间部署动态路由协议（如EBGP协议），打通网络三层路由可达性。部署RoCE功能，配套部署PFC、ECN功能，为无损通信提供保障。

流量模型

同GSP设备下转发，源服务器网卡发送IP报文，经GSP设备，直接以IP报文转发给同一GSP下的目的服务器网卡。

同PoD内服务器间转发，源服务器网卡发送IP报文，经源GSP设备封装GSE头信息，容器喷洒至GSF设备，GSF设备根据GSE头信息转发至目的GSP设备，目的GSP设备解封还原成IP报文，转发至目的服务器网卡。

跨PoD转发，源服务器网卡发送IP报文，经源GSP设备封装GSE头信息，容器喷洒至GSF设备，GSF设备根据GSE头信息转发至BORDER设备，BORDER设备解封还原成IP报文并转发至CORE设备，CORE根据路由信息转发至目的PoD的BORDER设备，BORDER设备将IP报文重新封装为GSE报文，经目标PoD内GSF设备转发至目的GSP设备，目的GSP设备解封还原成IP报文，转发至目的服务器网卡。

其他组网架构优化

考虑到实际业务开展及部署实施的差异化需求，GSE网络的组网架构可从多个不同方向进行针对性优化。

收敛比配置：考虑到跨PoD流量通常小于PoD内流量，可按需针对性配置收敛比。其中，三层组网架构的收敛比部署在GSF-T2设备，多PoD互联架构的收敛比部署在BORDER设备。常规推荐收敛比为1:7。
单PoD规模最大：三层组网架构中，可在GSF-T2层采用轨道化部署。将原Full Mesh全互联方式，调整为不同SU单元中同序号的GSP设备与若干台GSF-T2设备互联，组成一个轨道；不同序号的GSP设备和其他GSF-T2设备互联，组成其他若干轨道。调整后单PoD最大可支持32K卡规模，且轨道化部署与Full Mesh部署构建十万卡级组网的设备及光模块总用量保持一致。
PoD间跳数最少：多PoD互联架构中，为减少PoD间流量转发跳数，可将PoD内简化为GSP设备和GSF设备的两层组网，如图3所示，PoD间由GSP设备直接接至PoDI的CORE设备上，使跨PoD流量可直接接入PoDI网络，减少经过PoD内的跳数。该方式对于PoD内网络，可在GSP设备上到GSF方向部署加速比，提高网络吞吐；对于PoD间网络，可在GSP设备上到PoDI方向部署收敛比。

GSE技术为十万卡级智算组网提供了无阻塞、高均衡的核心技术支撑，能够有效解决传统组网技术痛点，推动智算集群向更大规模演进，并为构建新一代智算网络、赋能智算产业高质量升级提供有力保障。

本期相关文章

中兴通讯助力河南移动、广西移动打造800G以太网跨域智算互联新标杆

铸就中部地区智能计算新基座——中兴通讯助力湖南移动算力资源池网络建设

数据中心光模块的演进

Scale-Up互联技术

数据快递与AI入算业务使能技术——高性能广域网（HP-WAN）

网元内生智能架构及关键技术

智能体互联网（IoA）构建：核心技术与网络演进

构建算力互联底座，助力算网协同高效发展——面向智算业务的IP网络解决方案