数据快递与AI入算业务使能技术——高性能广域网(HP-WAN)

发布时间:2026-03-27 作者:中兴通讯 黄光平,熊泉

        随着国家“东数西算”战略的实施部署,以及生成式人工智能(GenAI)与高性能计算(HPC)的高速发展,算力中心承载的数据量与协同需求呈指数级增长,跨地域算力资源的实时调度与海量数据传输已成为关键挑战。此外,在AI/HPC跨地域协同的多种场景中,包括训练前模型与数据在数据中心间的快速上载、训练期间跨设备数据状态同步、科学数据快递及灾备传输等,这些任务不仅对传输速率和时延有极高要求,也对数据完整性和系统长期稳定运行提出了更高性能要求。由于传统广域网在长距离传输中面临带宽利用率低、时延不可控等瓶颈,导致算力协同效率受限,急需一种以“高带宽、低时延、无损化”为特征,在高带宽利用率下提供有效高吞吐的广域网技术,其既能实现跨域算力资源的毫秒级联动,又能保障海量数据在长距离下的传输效率,使存算分离、多中心分布式训练等场景突破地理限制。

 

高性能广域网概念

 

        高性能广域网(high-performance wide area network,HP-WAN),以跨站点或跨数据中心构建的广域网为基础,满足AI/HPC对高速率、低延迟和高可靠性的苛刻传输需求,为高速、低延迟和超高容量应用而设计的广域网高通量技术,聚焦基于网侧增强的端网协同方案。网络进行主动拥塞避免,在端网之间进行流量及资源调度,通过双向交互协商速率等保障高性能数据传输,在保障资源利用率和公平性的同时,实现高通量传输。

        HP-WAN作为相较于传统WAN的技术演进方向,承担起面向多种算力互联场景下的关键数据高效承载的职责:面向秒级至分钟级的任务完成时间目标,致力于提供超高有效吞吐量(即大容量数据在限定时间内完成传输的能力),并在提升带宽利用率的同时,确保链路资源在多业务并发下的公平共享与服务质量保障,避免多流竞争导致的慢流拖尾及FCT(flow completion time)传输抖动。

 

高性能广域网架构及关键技术

 

        如图1所示,为了保障大容量数据的广域网高性能传输,HP-WAN在IETF(参考draft-xhy-hpwan-framework)提出基于端网协同的架构,提供任务式应用需求与端侧主机协商双向速率,通过向端侧主机动态分配和授权发送流量的配额来防止拥塞,同时实现基于配额的资源调度、准入控制和流量控制,满足最优完成时间目标。通过端网协同速率协商,客户端和服务端能够以更精细的方式高效快速地调整发送速率,避免端侧传输协议被动调速,提高广域传输吞吐量;通过基于配额的资源预留,网络增强对流量的调节能力和资源调度能力,保障所有任务的传输需求及资源保障;通过流量调度与准入,实现多流之间网络带宽资源的合理分配及动态调度,控制智算业务传输的最大及最小速率,在满足高吞吐要求的同时,避免慢流拖尾现象,实现集合通信多流传输的同步性。同时,采用快速拥塞感知及通告机制,在网络拥塞发生时,网络可以在近源端进行快速拥塞反馈,能够迅速且准确地对流量速率进行反馈通告,并缓解网络拥塞。

 

        根据端侧主机与网络的协同,HP-WAN对端侧主机/入口节点/中间节点/控制器等提出以下相关功能要求:

  • 端网协同速率协商:端侧与网络进行流量规划及调度,根据流量传输需求协商速率;

  • 网络动态资源预留:网络需要提供任务感知及资源调度,保障所有任务的传输需求及资源保障;

  • 流量调度及准入:网络对端侧流量请求进行授权准入;

  • 网关拥塞通告:网络拥塞节点可向代理网关节点发送快速拥塞通告报文,再由代理网关节点向发送端设备发送拥塞通告报文。

 

端网速率协商

        智算业务中突发的大容量数据流量传输可能导致网络内的瞬时拥塞、丢包和排队延迟。在拥塞控制机制中,端侧对网络的带宽资源无感知,导致调速不平滑,吞吐量下降。因此,高性能广域网将向端侧协商速率策略,从而实现速率协同及拥塞避免。

        根据端侧主机与网络的协同机制,HP-WAN在IETF(参考draft-xiong-hpwan-signaling-solution)提出3种速率协商策略:

  • 最优速率或最优速率传输:网络为大容量数据提供资源调度机制获得QoS保障,实现最优速率传输,端侧主机可按照协商的最优速率或最优速率范围传输。

  • 最小速率传输:网络为大容量数据提供最小的资源预留保障,实现最小速率传输,端侧主机可按照不小于协商的速率传输。

  • 最大速率传输:网络为大容量数据提供资源预留的上限,实现最大速率传输,端侧主机可按照不大于协商的速率传输。

 

基于配额的动态资源预留

        在HP-WAN场景中,数据传输有任务式传输的需求,且任务有预期性,需要提供任务感知及资源调度,保障所有任务的传输需求及资源保障。HP-WAN在IETF(参考draft-xiong-teas-rsvp-resource-quota)提出分布式信令的方式实现基于配额的动态资源预留机制。基于配额(quota)的调度是一种资源管理策略,配额可定义为一定时间内的可用资源(带宽、队列、buffer等),网络可根据任务需求分配和授权配额,并且实现基于配额的资源调度,进行主动拥塞避免,保障基于配额及其速率的高效转发。同时,HP-WAN对于配额资源需要基于速率控制进行动态调度,通过实现多流之间网络带宽资源的合理分配及动态调度,控制智算业务传输的最大及最小速率,协同端侧传输协议进行业务流量调度,在满足高吞吐要求的同时,避免慢流拖尾现象,实现集合通信多流传输的同步性。

 

流量调度及准入

        HP-WAN在IETF(参考draft-xhy-hpwan-framework)提出可在接收流量后基于协商速率进行流量调度与策略执行,包括对流量分类、按业务类型区分优先级、提升关键流量QoS等级、对流量进行整形,例如聚合小鼠流(mouse flows)或分片大象流(elephant flow)等。网络入口的流量调度策略执行可规范数据流,而流量根据网络可用资源进行准入控制可以消除拥塞并最小化流完成时间。为了支持端网速率协同,网络可扩展RSVP-TE协议进行基于速率控制的动态资源调度和准入,通过预留最小速率对应的最小带宽配额保障单流完成时间,通过动态调度最大速率对应的最大带宽避免多流竞争导致拥塞丢包。网络节点应基于协商的QoS(服务质量)与速率执行准入及流量控制。通过准入控制与拥塞控制的结合,可在高效利用网络容量的同时,实现高吞吐量与低完成时延。

 

网关快速拥塞通告

        HP-WAN在IETF(参考draft-xiao-rtgwg-proxy-congestion-notification)提出拥塞节点可向代理网关节点发送快速拥塞通告报文,再由代理网关节点向发送端设备发送拥塞通告报文。HP-WAN需要为每一个端侧设备指定一个用于快速拥塞通告的代理网关节点,代理网关节点应知晓端侧设备所能够解析的拥塞通告报文。代理网络节点通过IGP协议或BGP协议向外通告自身的拥塞通告代理能力及所代理的端侧设备的IP前缀,网络中的设备收到代理网络节点的通告后,记录代理网络节点与其所代理端侧设备的映射表,网络中一旦发生拥塞,检测到拥塞的网络节点通过拥塞报文的源IP地址找到代理网络节点,可扩展ICMP或UDP协议向代理网络节点发送快速拥塞通告报文,再由代理网络节点向发送端设备发送拥塞通告报文。

 

总结与展望

 

        标准推进方面,IETF标准组织针对低时延、高吞吐、低丢包等智算场景需求,已在传输、管控、路由等领域进行相关标准讨论。例如传输领域的SCONE、TSVWG、CCWG等工作组针对RDMA包括RoCE等与TCP、QUIC等协议的适配,CUBIC及BBR等拥塞控制算法的优化等进行了讨论。针对AI/HPC等广域网大容量传输需求,IETF WIT域已于2024年7月开始讨论高性能广域网场景及需求等,并于2024年11月成功召开HP-WAN BOF,明确了广域网需要满足高速、低延迟与超高容量的应用场景,及高吞吐低时延等基础需求,HP-WAN架构及其关键技术相关标准已成为面向智算场景的研究热点及标准化方向。

        技术趋势方面,高性能广域网中无损技术与有损技术并存,广域无损技术能够为业务提供低延迟、低丢包和高带宽利用率的数据传输服务,除光互联方案之外,确定性网络技术也可用于提供广域长距无损承载能力。由于广域无损对网络有极高要求,对于时延不敏感的业务,也可增强网络能力提供广域容损的数据传输服务。基于IP的高性能广域传输方案能够以更低的成本支持更长的传输距离,基于网侧主动拥塞控制和配额协商,进一步增强端网速率协同,具备满足大容量限时传输的广域高性能传输需求的潜力。

        在技术迭代和市场需求的双重推动下,高性能广域网将逐步替代高成本网络专线,成为支撑未来多场景低时延、高可靠、高安全网络连接的主力军。