专题导读

发布时间:2025-05-15 作者:段晓东,李丹,虞红芳

 

大模型技术已从探索阶段迈向普惠应用,呈现爆发式增长与深度行业渗透的态势。当前人工智能(AI)技术发展呈现双重趋势:一方面遵循传统扩展定律(Scaling Law),通过“大模型+大算力+大数据”持续突破模型性能边界;另一方面推进“模型算法+算网设施”协同优化,以系统级创新探索算效极限,构建高性价比解决方案。二者的同步推进正驱动全球算力基础设施呈级数增长。

智算互联网络作为大规模图形处理器(GPU)集群分布式计算的核心基础设施,正面临架构升级与性能突破的双重挑战:一方面,大模型迭代速度的指数级增长推动算力集群规模从万卡级向十万卡量级跨越,驱动超大规模组网架构创新;另一方面,分布式计算效率对网络性能提出严苛要求,需构建超低时延、超高带宽、超高可靠的无损网络环境。这一量级跃升与性能需求,亟需智算网络实现关键技术突破。

智算网络可划分为3个层级架构:服务器/超节点内的GPU卡间互联网络、园区级智算中心机间互联网络、广域级智算中心间互联网络。各层级在拓扑结构、性能指标及技术方案上存在显著差异:1)服务器/超节点内GPU互联网络需承载张量并行(TP)、序列并行(SP)、混合专家(MoE)并行计算任务,具备纳秒级延迟与太比特每秒级带宽需求。国际先进方案已实现256卡全互连架构,单卡吞吐量达900 Gbit/s;相较之下,中国GPU产业在互联规模与传输性能方面仍存在明显差距。2)智算中心内服务器互联网络支撑流水线并行(PP)、数据并行(DP)、MoE并行训练,需满足万卡至十万卡级无收敛组网需求,具备拍比特每秒级交换能力与微秒级延时稳定性。该场景对交换芯片容量、无损传输及智能运维提出新要求。中国移动主导的全调度以太网(GSE)联盟基于以太网革新,构建标准开放的技术体系,产业生态逐步成熟。3)跨园区智算中心间互联网络主要处理PP、DP通信任务,面临带宽收敛、长距时延及数据安全三重挑战,需依托上层平台、算法模型与网络技术的协同优化实现突破。当前行业正加速推进长距跨智算中心联合训练的技术验证与标准体系构建,着力探索分布式智能计算的协同创新路径。

智算网络面临的核心挑战需通过算力与网络的深度融合实现系统性突破,其破局点涵盖架构设计、协议优化、故障恢复、芯片设计及生态协同等多维创新。本期专题就智算中心网络的发展趋势及挑战、超节点GPU互联协议、GPU集群机间互联技术、多算力中心协同的广域智算网络保障和仿真、基于AI的智能运维等关键技术开展讨论。专题汇集了来自清华大学、电子科技大学、北京邮电大学、南京大学、中国移动、中国联通、腾讯以及中兴通讯等专家的最新研究成果,凝聚了他们多年的研究积累与实践经验。在此,谨向所有作者致以诚挚谢意,期待本专题能为读者提供有价值的学术参考和实践启示。