构建算力互联底座,助力算网协同高效发展——面向智算业务的IP网络解决方案

发布时间:2026-03-27 作者:中兴通讯 冯志坚,庄严

        中国围绕人工智能发展已构建了全链条、多层次的政策促进体系,2025年国务院出台《关于深入实施“人工智能+”行动的意见》,进一步提出更具体的阶段目标,要求实现人工智能与重点领域深度融合。人工智能的蓬勃发展离不开底层网络的支撑,广域IP网络已成为AI技术落地的核心基础设施底座。面对AI大模型的分布式训练、跨地域数据传输、存算拉远等场景对网络带宽、低时延、高可靠性提出的新要求,运营商IP网络通过技术升级与方案创新,为AI发展提供关键保障。

 

智算业务场景的网络要求及关键技术

 

        在AI大模型发展驱动下,IP网络面临高吞吐入算、跨DC联合训练、跨DC分布式推理、跨DC存算分离等智算业务新场景(见图1)。各场景需要依托高速传输、智能调度等关键技术,适配跨地域算力协同需求,破解数据传输、算力整合、安全合规等难题,支撑一体化算力网络高效运转。

 

高吞吐入算

        “东数西算”战略推进下,形成“东部供数、西部算力承接”的核心格局,高吞吐数据入算需求显著。AI大模型全生命周期训练依赖海量样本入算,其中预训练数据量达PB级,后训练与微调阶段随用户规模扩张,整体数据量呈激增态势。此类数据以周期性批量传输为主,需依托国家算力枢纽节点布局,实现跨区域、跨资源池高效流转,为“东算西训”“东数西存”核心场景提供支撑。

        高吞吐入算场景的网络要求及关键技术如下:

  • 弹性高吞吐:支持100Mbps~100Gbps带宽分钟级开通、秒级动态调整,结合400G/800G全光网络技术,保障TB/PB级海量数据稳定高速传输。

  • 智能调度均衡:基于SRv6技术构建动态路由体系,通过全局与网络级双重负载均衡,实现数据流智能拆分与多路径并行传输,优化跨枢纽节点传输路径,降低端到端时延。

  • 租户隔离安全:采用层次化网络切片技术,隔离样本入算流量与普通业务流量,满足多主体租户级安全隔离需求,保障数据传输合规性。

  • 便捷资源联动:支持企业单点接入直达通算、智算、超算等异构资源池,适配全国一体化算力网“枢纽-集群-节点”三级架构,实现跨池数据按需调度。

  • 差异化服务计费:自动识别业务优先级并分配专属弹性传输管道,提供多维度计费模式,契合算网协同运营的市场化需求。

 

跨DC联合训练

        跨DC联合训练的核心是解决单一数据中心资源短缺、算力碎片化问题,通过联动多地数据中心实现算力池化整合,支撑万亿级参数大模型等超大规模训练任务落地。训练过程中,每轮迭代产生的中间数据达TB级,且数据同步依赖对丢包高度敏感的RDMA协议;同时,训练产生的“大象流”易引发负载不均衡,仅0.1%丢包即会显著降低算效,对网络传输要求严苛。

        跨DC联合训练的网络要求及关键技术如下:

  • 大带宽支撑:需部署400G及以上传输链路,高端场景升级至800G广域无损传输,构建跨地域算力协同的高速互联底座。

  • 广域负载均衡:对整网流量实施统一规划,实现数据中心网络与广域网一体化调度,通过全局路径优化避免局部链路过载,保障网络高吞吐性能。

  • 高收敛比组网:结合集合通信算法与网络优化技术,按最优收敛比组网,平衡算效与建网成本,降低基础设施部署投入。

 

跨DC分布式推理

        跨DC分布式推理通过模型拆分或并行化部署至跨地域节点,行业主流采用PD分离框架优化效能,将计算密集型Prefill阶段与访存密集型Decode阶段解耦,大幅降低推理成本。边缘节点执行Prefill计算,中心节点承接Decode任务并留存对话上下文及高热度KV Cache,缩短响应链路,实现低时延、高稳定的推理服务交付。

        跨DC分布式推理场景的网络要求及关键技术如下:

  • 无损传输:依托RDMA(如RoCEv2)构建无损传输环境,搭配PFC流量控制与ECN拥塞通知,实现微秒级时延与近零丢包。

  • 云边协同保障:借助SRv6优化转发路径,结合RDMA加速KV Cache的预取与同步效率。

 

跨DC存算分离

        在通用大模型的基础上,用行业专属数据进行模型精调,可以采用跨DC“存算分离”方案,该方案平衡企业敏感数据保护与高效用算需求。通过数据存储与训练算力地理分离,本地留存核心敏感数据规避跨域风险,远端智算中心承载训练任务,破解“数据不出域”与“高效用算”的核心矛盾。

        跨DC存算分离场景的网络要求及关键技术如下:

  • 高性能传输:核心链路部署100G及以上速率,骨干链路升级至400G级别,适配高频大批量“大象流”传输。

  • 智能调度适配:通过控制器实现整网编排,自动调度动态规划传输路径;结合SRv6切片划分专属通道,弹性调整带宽适配算力需求。

  • 安全隔离防护:依托SRv6实现租户隔离;启用零信任认证严格校验节点身份,保障数据合规与隐私安全。

  • 高可靠保障:链路层面采用主备冗余,跨地域搭配专线与VPN备份;通过BFD毫秒级故障检测配合秒级重路由,部署监控与故障分析系统,保障业务持续运行。

 

智算IP网络整体解决方案

 

        智算业务涵盖“东数西算”、模型训练、AI推理、存算分离等多元场景,IP网络解决方案需围绕高带宽、低时延、无损传输、安全隔离、智能调度及高可靠核心诉求,通过架构优化、技术适配、策略配置等多维度设计,全面匹配业务差异化需求。

 

组网架构优化

        通过高速全互联、中心边缘协同、全域跨域调度,构建高效、弹性、广覆盖的网络架构。

  • 核心层与接入层设计:采用高聚合度全互联核心架构,核心层部署400G/800G传输能力,接入层按节点类型灵活配置400G/100G接入,实现算、存节点与核心层高效互联。

  • 中心-边缘协同设计:构建“骨干网+边缘节点”分布式架构,边缘节点就近接入用户网络,缩短响应链路。

  • 跨区域互联设计:匹配全国一体化算力网“枢纽-集群-节点”三级架构,搭建跨区域互联通道,支持企业单点接入直达各类异构资源池,实现跨池数据按需调度与算力协同。

 

传输性能提升

        通过高速大带宽与弹性调度支撑海高效传输,同时依托无损低时延技术提升算力利用率。

  • 带宽弹性扩容:核心链路部署100G及以上速率,跨地域骨干链路升级至400G/800G,满足TB/PB级数据批量传输与高频“大象流”交互需求;部署弹性带宽调度系统,支持100Mbps~100Gbps分钟级开通、秒级调整,适配潮汐式流量特征。

  • 无损低时延优化:全面部署RDMA(如RoCEv2),依托“零拷贝”特性将传输时延压缩至微秒级,搭配PFC与ECN机制构建广域无损环境,严控丢包率,算效劣化不超过5%。

 

智能调度与负载均衡

        依托智能路由与精细化流量管理,实现全网资源动态优化、业务高效稳定运行。

  • 全局动态调度:基于SRv6可编程路由构建动态路由体系,结合控制器实现整网智能编排,通过优化算法动态规划路径,实现数据流拆分与多路径并行传输。

  • 流量适配:为大小流分配不同优先级,启用优先级队列调度;部署自动调度机制,根据业务SLA动态调整资源分配,最大化带宽利用率并应对流量突发。

 

IP网络切片

        基于SRv6构建差异化网络切片,为不同AI业务提供专属SLA保障,并通过弹性调度与可视化监控,实现资源智能适配与业务稳定运行。

  • 切片体系构建:基于SRv6构建网络切片体系,按业务类型划分批量传输、大模型训练等专属切片,每个切片配备独立带宽、时延、安全SLA保障。

  • 切片资源弹性调度:通过切片控制器,实时感知切片内流量变化与资源占用,动态分配资源。

  • 监控保障:部署切片可视化监控系统,实时采集时延、丢包、带宽利用率等指标,支持故障快速定位与自愈,保障切片内业务稳定。

 

安全隔离与合规保障

        采用层次化网络隔离与全链路加密防护,实现智算业务安全隔离与数据合规传输,保障多租户环境下业务稳定与数据安全。

  • 层次化隔离:以IP网络切片为核心,结合VLAN/VRF技术为不同租户、业务划分独立传输通道,深度隔离智算流量与普通业务流量,防止故障或拥塞扩散。

  • 全链路安全防护:加密防护贯穿传输全过程,可以引入IPsec加密、零信任认证、节点身份校验,确保敏感数据安全。

 

高可靠与智能运维

        通过毫秒级故障倒换与多重冗余机制保障业务高可靠运行,同时依托可视化智能运维与差异化计费体系,支撑算网融合的高效运营。

  • 多重冗余保障:部署BFD毫秒级故障检测配合50毫秒极速倒换,保障跨域训练、推理等长周期任务连续运行。

  • 智能运维与计费:部署随流检测等可视化监控工具,实时采集核心指标。建立差异化服务与计费体系,提供多维度计费模式,契合算网协同市场化运营需求。

 

总结与展望

 

        智算IP网络作为AI技术规模化落地的核心基础设施,针对高吞吐入算、跨DC联合训练等多元业务场景,通过组网架构优化、传输性能提升、智能调度、安全隔离等多维度方案,满足AI业务对高带宽、低时延、高可靠的核心诉求。

        未来,随着智能体互联网的加速演进,智算IP网络将成为智能体间数据交互、协同决策的核心枢纽,推动AI应用从单点智能迈向全域协同智能。同时,AI路由器的持续创新将为智算网络注入更强动力,实现流量的精准识别与智能调度,提升网络吞吐率与运维效率,通过数据自学习不断挖掘行业价值,助力算网协同向更智能、高效的方向发展。

        面向未来,智算IP网络将持续深化与AI技术的融合创新,构建数字经济时代的算力互联底座,为人工智能产业高质量发展提供有力保障。