选择语言

高性能智算广域网络演进趋势及关键技术

发布时间：2026-03-26 作者：中兴通讯承载网规划总工陶文强

人工智能应用正加速从单一大模型向智能体（AI Agent）体系演进，AI发展正式迈入“智能体元年”。与传统响应式AI工具不同，AI Agent具备持续交互、状态记忆、环境感知与自主决策等类人能力，正推动人机交互范式从“功能连接”向“持续服务连接”深刻转型。据IDC预测，到2030年，全球AI Agent数量将快速攀升至22.16亿，成为连接用户、服务与物理世界的数字基础设施，重塑终端形态、服务模式与产业生态格局。

在此背景下，AI流量特征发生根本性转变，AI Agent的7×24小时在线特性催生“低基线稳态、间歇性突发、弹性峰值”的新型流量模型。测算表明，AI驱动的网络流量年复合增长率高达51%，预计至2033年，整体流量规模将增长5至9倍。其中，东西向流量占比显著提升，逐步超越传统南北向流量，成为广域网络承载的核心挑战。

与此同时，AI算力集群正从万卡级向十万卡、百万卡规模快速演进。超大规模并行训练、云边端协同推理等新模式对网络提出前所未有的综合性能要求。传统“尽力而为”的网络架构已难以支撑AI业务对高吞吐、低时延、低抖动与高可靠性的承载需求。

面向未来，广域网亟需从“通用连接管道”向“算力使能网络”转型，为AI发展提供关键支撑。

智算业务场景和网络承载需求分析

智算业务的多样化催生了高度异构的流量图谱。智算业务典型场景涵盖样本入算、存算分离、PD分离、分布式推理、边云协同后训练及分布式训练六大类型，这些场景在数据规模、传输频率、时延敏感度和突发性等方面差异显著，并呈现“规模跨度大、时延敏感度高、周期性与突发性并存”的共性特征（见表1）。

其中，PD分离与分布式推理中频繁传输的KV Cache具有小包高频、时延敏感的特点，要求网络具备微秒级响应与低抖动保障；而分布式训练的参数同步则需持续、无损、高吞吐的TB级数据传输；样本入算涉及PB级冷数据广域迁移，强调带宽利用率与时效性；存算分离场景单次数据量大，对网络带宽和传输稳定性要求高。

面对差异化、高动态的业务需求，网络亟需向“业务感知、按需切片、弹性适配”的智能体系演进：基于“网业分离”设计理念，构建面向多业务场景的统一承载平台；通过为不同业务类型设置独立的业务锚点，实现各业务平面的灵活独立演进与按需调优，既保障关键任务的服务质量，又有效隔离业务间相互影响，显著提升网络的可维护性与扩展性。

此外，端到端无损是关键场景的保障基石。RDMA对丢包极为敏感，即使2%的丢包也可能导致吞吐量断崖式下降。因此，在万卡级训练、实时推理等高同步强度任务中，必须构建跨广域无损能力，涵盖显式拥塞控制、动态速率调节与微突发缓冲机制，确保算力高效协同、零空转。同时，部分非实时场景如样本上传、参数异步更新等对时延与丢包容忍度较高，可引入智能有损机制，在保障整体服务质量及控制成本前提下提升带宽复用效率，形成分级承载策略。

综上，高性能智算广域网需构建“任务驱动、差异服务、端网协同”的新型架构，在统一承载基础上支持灵活演进，推动网络从“算网融合”向“网智共生共融”持续演进。

高性能智算广域网架构及关键技术

高性能智算广域网需支撑多样异构业务，通过端、网、管协同实现业务感知与资源动态匹配，构建弹性、无损、智能的承载体系，为智算任务提供可保障的传输服务。

端网协同架构

高性能智算广域网通过和端侧、算侧深度融合，进一步提升端到端整体性能。如图1所示，高性能智算广域网整体架构主要由端、网、管三类核心元素构成：

端侧，主要指智算网关，端侧作为数据传输的发起端，需具备动态速率调节能力，通过端网协同机制，端侧可接收网侧传输建议信息，优化传输速率，实现与网络状态的动态匹配。

网侧，包含广域网PE设备和转发设备，在保障公平性的情况下提供尽可能高的吞吐。通过与端侧的协同，网络能够感知业务流量特征，实施主动拥塞避免，提升传输效率与稳定性。

管控，主要由网络控制器和统一调度平台组成，负责广域网络流量控制和资源调度。通过与端侧、网侧的协同，控制器可基于传输任务特性和网络资源状况，动态分配带宽等资源，优化多任务并发下的资源利用率，提升整体网络效能。

端侧系统通常部署于智算中心或数据站点，端侧与网络通过端网协同进行拥塞控制，交互智算任务的流量需求及网络能力，协商传输速率。网络据此可提供资源规划及调度支持，保障各类任务的传输需求及资源承诺。

其中广域网可通过确定性无损技术提供高保障服务，网络预留带宽队列及buffer等资源并实施入口准入控制等手段，实现网络无拥塞、无丢包及可承诺时延。对于非关键或容忍丢包的业务，网络也可以通过智能QoS和智能ECMP等技术提供弹性承载：智能QoS可优化流量突发导致的丢包，实现吞吐最大化与最低时延的目标；智能ECMP则通过感知流量的生命周期及流量大小分布等动态特性，突破传统静态Hash机制的限制，实现多路径更均衡的负载分担。

端网协同关键技术

端网协同关键技术聚焦提升传输效率与网络利用率，通过拥塞控制、智能调度与路径优化等手段，实现流量与网络资源的动态适配，保障多场景下高性能传输需求。

智算网关与网PE协同的拥塞控制技术

智算场景中，突发流量在广域网传输时可能引发瞬时拥塞、丢包和排队延迟。传统拥塞控制机制下，端侧缺乏对网络的带宽资源的量化感知，导致速率调整不平滑，收敛速度慢，进而影响吞吐。为此，高性能智算广域网引入端网协同拥塞控制机制，基于任务级应用需求与端侧协商发送速率，通过向端侧动态分配和授权流量发送配额，预防网络拥塞，同时实现基于配额的资源调度、准入控制和流量调控，满足最优完成时间目标。通过端网协同，客户端和服务端可更精细、高效地调节发送速率。网络由此增强对流量的调控和资源调度能力，保障各类任务的传输需求及资源供给，提供可预测的网络行为，有效缓解网络拥塞。

智能大象流识别和报文级喷洒（packet spraying）技术

智算场景中，大流量传输常因广域网资源不足或分配不均导致链路利用率下降；多流并发传输海量数据时，易引发网络资源过载，造成拥塞和吞吐下降。为提升带宽利用率，需实现多路径负载平衡，以达成低延迟、零丢包和高吞吐量的传输性能。传统静态ECMP负载均衡的核心问题在于固定哈希策略无法适应动态流量特征，易导致流量分配不均（如大象流独占路径）、协议层冲突（如TCP报文乱序），在AI训练等高并发、高突发性场景下问题尤为突出。

为此，高性能智算广域网引入报文级喷洒技术，将同一个AI训练任务的数据流切分为细粒度报文，并均匀调度到网络所有可用路径上，充分复用多路径带宽资源，显著提升整体带宽利用率。

线卡集成AI-flow分析组件，实时识别大象流并监控其生命周期及带宽等基线统计信息：

流量带宽度量：基于端口负载、流带宽、队列深度等因子，识别潜在拥塞风险，为路径选择提供依据；
生命周期度量：监测流的生命周期与实时统计数据，动态选择进入或者离开策略。

基于AI-flow的流量基线信息，系统综合评估流的传输特征与各ECMP路径的负载状态，动态计算最优路径。通过多路径流量智能调度，实现带宽聚合、毫秒级故障切换，有效突破传统静态哈希机制的性能瓶颈。

标准进展

为应对智算场景对低时延、高吞吐、低丢包的严苛需求，互联网工程任务组（IETF）已在传输、管控与路由等多个技术领域启动相关标准研究与讨论。在传输层面，SCONE、TSVWG、CCWG等工作组聚焦于RDMA（包括RoCE）与TCP、QUIC等协议的适配机制，并深入研究CUBIC、BBR等拥塞控制算法的优化方案。同时，IETF正在推进“高性能广域网”（HP-WAN）新课题的研究与讨论，明确广域网需支持高速、低延迟与超高容量的应用场景，满足高吞吐与低时延并重的基础能力需求。

国际电信联盟ITU SG13在算网架构、资源建模、业务增强方面提供了顶层设计和参考架构，为全球算网融合标准化进程奠定基础。国内以CCSA为核心，已启动《面向智算业务的广域网总体技术要求》等行业标准立项和制定工作，围绕广域无损、应用感知、确定性承载等关键方向初步形成体系化布局。

构建面向AI未来的智算广域网络新格局

中兴通讯认为，人工智能已进入新一轮高速发展周期，尽管传统规模定律（Scaling Law）的边际效益正面临挑战，但业界对算力规模的需求仍在持续增长，驱动重心正从大规模预训练向后训练、推理及多智能体协同等多元化场景延伸。在此背景下，AI集群规模从万卡向十万卡乃至百万卡演进，已成为行业发展的关键趋势。作为AI基础设施的核心组成部分，广域网络亟需同步升级，迎来新一轮技术革新。

在面向AI业务的广域承载网络的演进中，无损与有损技术并非优劣对立，而是面向不同业务需求、部署条件与规模边界形成的差异化技术路径。二者并非替代关系，而是长期共存、按需分层、智能适配，最终形成“关键任务无损保确定性、非关键流量有损保普惠性”的智算承载新格局。

当前多种技术路径并行发展，创新活跃，尚未形成统一标准，正处于关键技术路线的探索与收敛期。网络已成为驱动算力释放的关键使能者，唯有通过端网深度协同与技术架构持续创新，方能构建面向超大规模AI集群的高效、弹性、智能、确定性广域网络，为人工智能的下一阶段发展提供坚实支撑。

本期相关文章

Scale-Up互联技术

数据快递与AI入算业务使能技术——高性能广域网（HP-WAN）

网元内生智能架构及关键技术

智能体互联网（IoA）构建：核心技术与网络演进

构建算力互联底座，助力算网协同高效发展——面向智算业务的IP网络解决方案

赋能先进AI架构，解锁算力潜能——智算网络演进趋势分析

以网强算，智启未来：构筑智算时代新底座