选择语言

构建算力互联底座，助力算网协同高效发展——面向智算业务的IP网络解决方案

发布时间：2026-03-27 作者：中兴通讯冯志坚，庄严

中国围绕人工智能发展已构建了全链条、多层次的政策促进体系，2025年国务院出台《关于深入实施“人工智能+”行动的意见》，进一步提出更具体的阶段目标，要求实现人工智能与重点领域深度融合。人工智能的蓬勃发展离不开底层网络的支撑，广域IP网络已成为AI技术落地的核心基础设施底座。面对AI大模型的分布式训练、跨地域数据传输、存算拉远等场景对网络带宽、低时延、高可靠性提出的新要求，运营商IP网络通过技术升级与方案创新，为AI发展提供关键保障。

智算业务场景的网络要求及关键技术

在AI大模型发展驱动下，IP网络面临高吞吐入算、跨DC联合训练、跨DC分布式推理、跨DC存算分离等智算业务新场景（见图1）。各场景需要依托高速传输、智能调度等关键技术，适配跨地域算力协同需求，破解数据传输、算力整合、安全合规等难题，支撑一体化算力网络高效运转。

高吞吐入算

“东数西算”战略推进下，形成“东部供数、西部算力承接”的核心格局，高吞吐数据入算需求显著。AI大模型全生命周期训练依赖海量样本入算，其中预训练数据量达PB级，后训练与微调阶段随用户规模扩张，整体数据量呈激增态势。此类数据以周期性批量传输为主，需依托国家算力枢纽节点布局，实现跨区域、跨资源池高效流转，为“东算西训”“东数西存”核心场景提供支撑。

高吞吐入算场景的网络要求及关键技术如下：

弹性高吞吐：支持100Mbps~100Gbps带宽分钟级开通、秒级动态调整，结合400G/800G全光网络技术，保障TB/PB级海量数据稳定高速传输。
智能调度均衡：基于SRv6技术构建动态路由体系，通过全局与网络级双重负载均衡，实现数据流智能拆分与多路径并行传输，优化跨枢纽节点传输路径，降低端到端时延。
租户隔离安全：采用层次化网络切片技术，隔离样本入算流量与普通业务流量，满足多主体租户级安全隔离需求，保障数据传输合规性。
便捷资源联动：支持企业单点接入直达通算、智算、超算等异构资源池，适配全国一体化算力网“枢纽-集群-节点”三级架构，实现跨池数据按需调度。
差异化服务计费：自动识别业务优先级并分配专属弹性传输管道，提供多维度计费模式，契合算网协同运营的市场化需求。

跨DC联合训练

跨DC联合训练的核心是解决单一数据中心资源短缺、算力碎片化问题，通过联动多地数据中心实现算力池化整合，支撑万亿级参数大模型等超大规模训练任务落地。训练过程中，每轮迭代产生的中间数据达TB级，且数据同步依赖对丢包高度敏感的RDMA协议；同时，训练产生的“大象流”易引发负载不均衡，仅0.1%丢包即会显著降低算效，对网络传输要求严苛。

跨DC联合训练的网络要求及关键技术如下：

大带宽支撑：需部署400G及以上传输链路，高端场景升级至800G广域无损传输，构建跨地域算力协同的高速互联底座。
广域负载均衡：对整网流量实施统一规划，实现数据中心网络与广域网一体化调度，通过全局路径优化避免局部链路过载，保障网络高吞吐性能。
高收敛比组网：结合集合通信算法与网络优化技术，按最优收敛比组网，平衡算效与建网成本，降低基础设施部署投入。

跨DC分布式推理

跨DC分布式推理通过模型拆分或并行化部署至跨地域节点，行业主流采用PD分离框架优化效能，将计算密集型Prefill阶段与访存密集型Decode阶段解耦，大幅降低推理成本。边缘节点执行Prefill计算，中心节点承接Decode任务并留存对话上下文及高热度KV Cache，缩短响应链路，实现低时延、高稳定的推理服务交付。

跨DC分布式推理场景的网络要求及关键技术如下：

无损传输：依托RDMA（如RoCEv2）构建无损传输环境，搭配PFC流量控制与ECN拥塞通知，实现微秒级时延与近零丢包。
云边协同保障：借助SRv6优化转发路径，结合RDMA加速KV Cache的预取与同步效率。

跨DC存算分离

在通用大模型的基础上，用行业专属数据进行模型精调，可以采用跨DC“存算分离”方案，该方案平衡企业敏感数据保护与高效用算需求。通过数据存储与训练算力地理分离，本地留存核心敏感数据规避跨域风险，远端智算中心承载训练任务，破解“数据不出域”与“高效用算”的核心矛盾。

跨DC存算分离场景的网络要求及关键技术如下：

高性能传输：核心链路部署100G及以上速率，骨干链路升级至400G级别，适配高频大批量“大象流”传输。
智能调度适配：通过控制器实现整网编排，自动调度动态规划传输路径；结合SRv6切片划分专属通道，弹性调整带宽适配算力需求。
安全隔离防护：依托SRv6实现租户隔离；启用零信任认证严格校验节点身份，保障数据合规与隐私安全。
高可靠保障：链路层面采用主备冗余，跨地域搭配专线与VPN备份；通过BFD毫秒级故障检测配合秒级重路由，部署监控与故障分析系统，保障业务持续运行。

智算IP网络整体解决方案

智算业务涵盖“东数西算”、模型训练、AI推理、存算分离等多元场景，IP网络解决方案需围绕高带宽、低时延、无损传输、安全隔离、智能调度及高可靠核心诉求，通过架构优化、技术适配、策略配置等多维度设计，全面匹配业务差异化需求。

组网架构优化

通过高速全互联、中心边缘协同、全域跨域调度，构建高效、弹性、广覆盖的网络架构。

核心层与接入层设计：采用高聚合度全互联核心架构，核心层部署400G/800G传输能力，接入层按节点类型灵活配置400G/100G接入，实现算、存节点与核心层高效互联。
中心-边缘协同设计：构建“骨干网+边缘节点”分布式架构，边缘节点就近接入用户网络，缩短响应链路。
跨区域互联设计：匹配全国一体化算力网“枢纽-集群-节点”三级架构，搭建跨区域互联通道，支持企业单点接入直达各类异构资源池，实现跨池数据按需调度与算力协同。

传输性能提升

通过高速大带宽与弹性调度支撑海高效传输，同时依托无损低时延技术提升算力利用率。

带宽弹性扩容：核心链路部署100G及以上速率，跨地域骨干链路升级至400G/800G，满足TB/PB级数据批量传输与高频“大象流”交互需求；部署弹性带宽调度系统，支持100Mbps~100Gbps分钟级开通、秒级调整，适配潮汐式流量特征。
无损低时延优化：全面部署RDMA（如RoCEv2），依托“零拷贝”特性将传输时延压缩至微秒级，搭配PFC与ECN机制构建广域无损环境，严控丢包率，算效劣化不超过5%。

智能调度与负载均衡

依托智能路由与精细化流量管理，实现全网资源动态优化、业务高效稳定运行。

全局动态调度：基于SRv6可编程路由构建动态路由体系，结合控制器实现整网智能编排，通过优化算法动态规划路径，实现数据流拆分与多路径并行传输。
流量适配：为大小流分配不同优先级，启用优先级队列调度；部署自动调度机制，根据业务SLA动态调整资源分配，最大化带宽利用率并应对流量突发。

IP网络切片

基于SRv6构建差异化网络切片，为不同AI业务提供专属SLA保障，并通过弹性调度与可视化监控，实现资源智能适配与业务稳定运行。

切片体系构建：基于SRv6构建网络切片体系，按业务类型划分批量传输、大模型训练等专属切片，每个切片配备独立带宽、时延、安全SLA保障。
切片资源弹性调度：通过切片控制器，实时感知切片内流量变化与资源占用，动态分配资源。
监控保障：部署切片可视化监控系统，实时采集时延、丢包、带宽利用率等指标，支持故障快速定位与自愈，保障切片内业务稳定。

安全隔离与合规保障

采用层次化网络隔离与全链路加密防护，实现智算业务安全隔离与数据合规传输，保障多租户环境下业务稳定与数据安全。

层次化隔离：以IP网络切片为核心，结合VLAN/VRF技术为不同租户、业务划分独立传输通道，深度隔离智算流量与普通业务流量，防止故障或拥塞扩散。
全链路安全防护：加密防护贯穿传输全过程，可以引入IPsec加密、零信任认证、节点身份校验，确保敏感数据安全。

高可靠与智能运维

通过毫秒级故障倒换与多重冗余机制保障业务高可靠运行，同时依托可视化智能运维与差异化计费体系，支撑算网融合的高效运营。

多重冗余保障：部署BFD毫秒级故障检测配合50毫秒极速倒换，保障跨域训练、推理等长周期任务连续运行。
智能运维与计费：部署随流检测等可视化监控工具，实时采集核心指标。建立差异化服务与计费体系，提供多维度计费模式，契合算网协同市场化运营需求。

总结与展望

智算IP网络作为AI技术规模化落地的核心基础设施，针对高吞吐入算、跨DC联合训练等多元业务场景，通过组网架构优化、传输性能提升、智能调度、安全隔离等多维度方案，满足AI业务对高带宽、低时延、高可靠的核心诉求。

未来，随着智能体互联网的加速演进，智算IP网络将成为智能体间数据交互、协同决策的核心枢纽，推动AI应用从单点智能迈向全域协同智能。同时，AI路由器的持续创新将为智算网络注入更强动力，实现流量的精准识别与智能调度，提升网络吞吐率与运维效率，通过数据自学习不断挖掘行业价值，助力算网协同向更智能、高效的方向发展。

面向未来，智算IP网络将持续深化与AI技术的融合创新，构建数字经济时代的算力互联底座，为人工智能产业高质量发展提供有力保障。

本期相关文章

基于GSE技术的十万卡级组网：智算中心Scale-Out网络新路径

Scale-Up互联技术

数据快递与AI入算业务使能技术——高性能广域网（HP-WAN）

网元内生智能架构及关键技术

智能体互联网（IoA）构建：核心技术与网络演进

高性能智算广域网络演进趋势及关键技术

赋能先进AI架构，解锁算力潜能——智算网络演进趋势分析

以网强算，智启未来：构筑智算时代新底座