中国围绕人工智能发展已构建了全链条、多层次的政策促进体系,2025年国务院出台《关于深入实施“人工智能+”行动的意见》,进一步提出更具体的阶段目标,要求实现人工智能与重点领域深度融合。人工智能的蓬勃发展离不开底层网络的支撑,广域IP网络已成为AI技术落地的核心基础设施底座。面对AI大模型的分布式训练、跨地域数据传输、存算拉远等场景对网络带宽、低时延、高可靠性提出的新要求,运营商IP网络通过技术升级与方案创新,为AI发展提供关键保障。
智算业务场景的网络要求及关键技术
在AI大模型发展驱动下,IP网络面临高吞吐入算、跨DC联合训练、跨DC分布式推理、跨DC存算分离等智算业务新场景(见图1)。各场景需要依托高速传输、智能调度等关键技术,适配跨地域算力协同需求,破解数据传输、算力整合、安全合规等难题,支撑一体化算力网络高效运转。
高吞吐入算
“东数西算”战略推进下,形成“东部供数、西部算力承接”的核心格局,高吞吐数据入算需求显著。AI大模型全生命周期训练依赖海量样本入算,其中预训练数据量达PB级,后训练与微调阶段随用户规模扩张,整体数据量呈激增态势。此类数据以周期性批量传输为主,需依托国家算力枢纽节点布局,实现跨区域、跨资源池高效流转,为“东算西训”“东数西存”核心场景提供支撑。
高吞吐入算场景的网络要求及关键技术如下:
跨DC联合训练
跨DC联合训练的核心是解决单一数据中心资源短缺、算力碎片化问题,通过联动多地数据中心实现算力池化整合,支撑万亿级参数大模型等超大规模训练任务落地。训练过程中,每轮迭代产生的中间数据达TB级,且数据同步依赖对丢包高度敏感的RDMA协议;同时,训练产生的“大象流”易引发负载不均衡,仅0.1%丢包即会显著降低算效,对网络传输要求严苛。
跨DC联合训练的网络要求及关键技术如下:
跨DC分布式推理
跨DC分布式推理通过模型拆分或并行化部署至跨地域节点,行业主流采用PD分离框架优化效能,将计算密集型Prefill阶段与访存密集型Decode阶段解耦,大幅降低推理成本。边缘节点执行Prefill计算,中心节点承接Decode任务并留存对话上下文及高热度KV Cache,缩短响应链路,实现低时延、高稳定的推理服务交付。
跨DC分布式推理场景的网络要求及关键技术如下:
跨DC存算分离
在通用大模型的基础上,用行业专属数据进行模型精调,可以采用跨DC“存算分离”方案,该方案平衡企业敏感数据保护与高效用算需求。通过数据存储与训练算力地理分离,本地留存核心敏感数据规避跨域风险,远端智算中心承载训练任务,破解“数据不出域”与“高效用算”的核心矛盾。
跨DC存算分离场景的网络要求及关键技术如下:
智算IP网络整体解决方案
智算业务涵盖“东数西算”、模型训练、AI推理、存算分离等多元场景,IP网络解决方案需围绕高带宽、低时延、无损传输、安全隔离、智能调度及高可靠核心诉求,通过架构优化、技术适配、策略配置等多维度设计,全面匹配业务差异化需求。
组网架构优化
通过高速全互联、中心边缘协同、全域跨域调度,构建高效、弹性、广覆盖的网络架构。
传输性能提升
通过高速大带宽与弹性调度支撑海高效传输,同时依托无损低时延技术提升算力利用率。
智能调度与负载均衡
依托智能路由与精细化流量管理,实现全网资源动态优化、业务高效稳定运行。
IP网络切片
基于SRv6构建差异化网络切片,为不同AI业务提供专属SLA保障,并通过弹性调度与可视化监控,实现资源智能适配与业务稳定运行。
安全隔离与合规保障
采用层次化网络隔离与全链路加密防护,实现智算业务安全隔离与数据合规传输,保障多租户环境下业务稳定与数据安全。
高可靠与智能运维
通过毫秒级故障倒换与多重冗余机制保障业务高可靠运行,同时依托可视化智能运维与差异化计费体系,支撑算网融合的高效运营。
总结与展望
智算IP网络作为AI技术规模化落地的核心基础设施,针对高吞吐入算、跨DC联合训练等多元业务场景,通过组网架构优化、传输性能提升、智能调度、安全隔离等多维度方案,满足AI业务对高带宽、低时延、高可靠的核心诉求。
未来,随着智能体互联网的加速演进,智算IP网络将成为智能体间数据交互、协同决策的核心枢纽,推动AI应用从单点智能迈向全域协同智能。同时,AI路由器的持续创新将为智算网络注入更强动力,实现流量的精准识别与智能调度,提升网络吞吐率与运维效率,通过数据自学习不断挖掘行业价值,助力算网协同向更智能、高效的方向发展。
面向未来,智算IP网络将持续深化与AI技术的融合创新,构建数字经济时代的算力互联底座,为人工智能产业高质量发展提供有力保障。