AIDC智算中心基础设施架构创新与发展趋势

发布时间:2025-08-27 作者:中兴通讯 汪尔敏,蒋钢,万积清

        2025年中国智能算力规模将达到1037.3EFLOPS,预计到2028年将达到2781.9EPLOPS。预测显示,2023—2028年期间,中国智能算力规模三年年复合增长率预计达到46%,通用算力规模增长率预计达到18.8%,增势迅猛。

        随着生成式人工智能(AIGC)的发展,通用基础大模型参数量从千亿向万亿、十万亿增长,驱动训练集群规模从千卡向十万卡演进。国内外头部企业竞相部署万卡训练集群及百万卡、千万卡级别精调训练及推理集群。AI机柜功率从12kW向40kW、120kW、240kW上升,训练池功率达到130MW。同时叠加AI加速卡在训练时的动态冲击特性,智算中心供配电和暖通制冷架构及方案需要创新,以满足智算中心的空间集约、绿色高效、安全可靠运行要求。

 

供配电全链路架构创新

 

        传统数据中心供配电架构针对通算业务场景需求采用不间断电源(UPS/HVDC)、市电直供以及不间断电源和市电直供混合的三种形式,满足GB50174不同等级的可靠性和经济性需求。随着AI加速卡功率、算力超节点功率的阶跃性增长,2025年北美已有头部CSP开始规模部署功率~120kW(动态功率~200kW)的AI机柜。2027—2028年,AI加速卡厂商发布新AI机柜(型号Kyber)的功率暴增至~600kW(动态功率~1000kW),现有供配电架构和方案产品都难以满足其安全性及业务需求,引发供配电架构和方案产品的创新变革。

        在开源组织OCP(Open Compute Project)的牵引下,供配电系统从集约性、效率、电压制式、动态特性等多个维度进行创新,新的解决方案呈现为电压制式和架构两个方向,即两种直流电压制式(800Vdc、±400Vdc)和两种供配电链路架构(包括核心产品电源边柜、SST)。新的解决方案在满足下一代智算及超算数据中心需求的同时,其生态构建过程也将为行业带来全新的挑战与机遇。两种新的供配电链路架构如图1所示。

供配电产品技术及趋势

 

        随着数据中心和算力需求的快速发展,供配电架构及其产品技术正经历着变革,以满足高功率密度、高可靠性和高效率的要求。产品技术趋势朝着高效、节能、模块化、预制化的方向发展,同时结合绿能与储能技术,实现算电协调。

 

供电预制模块集成化趋势

        传统数据中心,尤其是中小型的供配电系统普遍采用零散式的部署方式,包括变压器、低压成套、UPS/HVDC等设备,集成商现场部署和调试,导致供配电项目时间长、调试对接难度大、投入较大等问题。

        针对CSP数据中心项目,为了实现6~9个月从零基础到完成验收交付,同时降低成本和供配电部署的占地集约化,集10kV输入变配电和不间断电源于一体的预制模块化产品成为成为主流,进入规模化部署阶段。

        未来2~3年,新型的电源边柜Sidecar、中压直流电源等也将采用类似的或部分类似的预制模块化产品形态。

 

平抑智算动态的超级电容产品

        针对AI服务器算力训练及推理过程中的动态冲击特性,供电侧如何去适应调节平抑这部分瞬间能量?其核心是通过满足AI服务器动态特性的储能装置,避免智算中心AIDC供配电的毫秒级、超大比例的电流波动。例如英伟达GB300芯片,其电源方案引入超级电容模组,可在0.1秒内响应负载突变,避免GB300因高功率产生的电压暂降问题。同时AI芯片并行计算时也易瞬间电流激增导致供电不稳,超级电容可以作为缓冲器平滑电流波动,保护硬件。

 

高压直流HVDC

        通信机房和数据中心应用高压直流HVDC(240/336Vdc)已有10年以上历史,尤其是国内。目前随着AI机柜功率达到~120kW,同时英伟达发布2~3年后AI机柜功率~600kW的路标,现有的HVDC已无法满足AI机柜高密的需求,体现在电压较低、效率较低、难以较好平抑智算动态特性、功率密度较低等方面。

        为此,面向AI高密机柜功率的新型HVDC成为OCP组织推荐和超大型云服务商选择的产品技术方向。其特点:一种是一体化电源边柜Sidecar形式,系统效率98%,380/480Vac输入,可达~1MW,内置智算PSU、超级电容CBU、锂电备电BBU功能于一体,贴近AI高密机柜部署;另一种是中压输入的直流电源,系统效率98%,10kVac输入,可达几MW容量,集中部署于电源电池室。

 

算力园区高压能量路由器产品SST

        多端口固态变压器SST(solid state transformer)以其灵活调控、电能质量治理以及端口间能量互联互济和故障相互隔离的卓越优势,在未来高密AI超节点及大模型百万卡/千万卡规模的训练园区扮演关键枢纽角色,前景广阔。SST实现端口间的解耦控制、多台SST间的集群智能管理、PET与电网和负荷间的故障保护配合,同时提供交流和直流端口,这意味着多端口SST技术的发展与直流微电网以及直流配电技术相辅相成。

 

暖通链路架构的演进与重构

 

        随着AI服务器热密度的大幅攀升,传统风冷架构在单柜功率超过20kW时已显乏力。为了提升散热能力,IT端正在大规模转向液冷路径。从物理特性来看,液体的载热能力远超空气,水的体积热容约为相同体积空气的3400倍。这意味着在相同流量下,液冷系统可传输的热量是风冷系统的数千倍,显著提升了散热效率。

        液冷的出现,使得整个热通道链路发生结构性改变(见图2):原本依赖空气组织气流的末端设备被液冷交换装置(如CDU)所替代;传统的“送风—回风”路径逐步让位于“供液—回液”的闭式循环系统。因此,液冷链路的出现不仅改变了IT端散热方式,也推动了暖通链路从气冷路径向液冷路径的深度重构。

        尽管液冷技术快速发展,风冷系统在数据中心中仍不可或缺。非核心器件(如内存、硬盘、电源模块)依赖空气散热,混合部署场景下风冷可作为协同或备用机制。当前数据中心呈现“液冷为主、风冷协同”的复合模式。例如,主流智算数据中心中,液冷覆盖80%的AI训练负载,风冷负责20%的低密度负载及辅助散热,整体PUE降至1.15。

暖通产品技术及趋势

 

        液冷与风冷链路的架构重构驱动了产品技术的创新,以下从多个方面分析其技术特征和趋势。

 

冷却液分配单元(CDU):液冷架构中的关键中枢

        作为连接IT侧液冷与机房冷冻水系统的核心设备, CDU(coolant distribution unit)产品形态正逐步演进,形成多种典型配置以适配不同规模与部署场景:

  • In-rack CDU:部署于整机柜内部,专为整机柜交付模式设计,具备高度集成、即插即用特性,支持液冷系统的快速部署与上线。
  • 集中式 CDU:适用于大规模冷板液冷部署场景,单机散热能力覆盖300kW至1MW以上,常部署于列间、设备间或专用冷却区。
  • 预制撬装式CDU:通过结构平台化和接口预设,能够结合不同数据中心项目的具体负载规模、空间布局与部署节奏,实现泵组、换热器、控制单元等组件的高度定制集成,具备良好的项目适应性和场景工程化复制能力。

        除上述主流形态外,行业中还涌现出多种新兴技术路线的CDU产品,如负压型CDU(提升系统泄漏容错能力)、两相CDU(适配相变冷却需求)等,尽管尚未成为主流,但显示出液冷CDU技术路径的多样化发展趋势。

 

控制系统能力提升:应对一二次侧联动下的动态温控挑战

        AI服务器训练功耗波动大,GPU并行计算产生短周期热量冲击,对冷却系统响应速度和精度要求更高。传统风冷系统有空气缓冲和风量调节能力,而液冷系统负载高、调节余量低,快速响应容错空间更小。

        过去液冷系统一次侧(如冷冻水)与二次侧(如冷板回路)多采用“解耦”模式,独立控制,但在AI高热密度场景下,难以协调热量传递与能效优化,易导致局部过热或能耗偏高。新一代液冷系统向“一二次侧联动控制”演进,动态协同调节能力显著提升。通过调节泵速、水阀开度与热交换流量等,实现热负载-液流-换热三维联动;构建基于功率/温度协同的预测性调节逻辑,如AI训练任务启动前预判冷量分配节奏;动态优化冷却液温差策略,在保证散热的同时减少不必要的低温冗余,提升系统整体能效。

 

风冷系统的协同存在与演进

        液冷技术快速发展,但风冷系统仍发挥补充作用,尤其在混合部署或多样化散热场景中。创新的风冷技术包括:

  • 风墙:集成冷水换热,支持模块化部署;
  • 背板换热器:适用于高密度机架;
  • 氟泵一体机:三种模式切换,PUE可降至1.2以下;
  • 间接蒸发冷却:干湿模式灵活切换,避免污染。

 

绿色发展方向:热能回收与节水路径

        液冷技术由于具备稳定可控的高温回水能力,也为系统性节能提供了新契机。一方面,余热回收成为值得关注的方向。液冷系统的回水温度普遍可达45°C~60°C,具备一定热值基础,可通过热泵或板式换热器进行能量回收,用于区域供暖、生活热水或工业预热等场景。国外已有多个项目实现与园区供热系统对接,形成“算力-热力”融合模式。国内也有部分智算中心正探索结合清洁能源的“液冷+热能复用”方案,虽尚处于示范阶段,但具备较强的技术可行性与政策支持前景。

        另一方面,液冷系统的一次侧冷却方式也正朝着节水型架构演进。传统冷却塔虽具备高效换热能力,但水耗较大,尤其在干旱或水价高地区使用受限。近年来,更多数据中心开始采用闭式干冷器、间接蒸发冷却器(IEC)、膜蒸发等低水耗/无水冷却技术,构建“高温冷却水+自然冷源”的节水链路结构。一些新建项目已明确提出“禁用开式冷却塔”的绿色要求,倒逼冷源方案加快向干式/间接式路径转型。

综合来看,未来AIDC暖通系统将在保障高热密散热能力的同时,更加注重对回收热价值的利用与对自然资源(水)使用的控制,以实现算力基础设施的绿色转型与长期可持续运行。

              

未来算电协同趋势

 

        算电协同通过优化计算负载、能量调度和热管理协调,实现资源的高效利用,提高可再生能源的销纳,降低能耗与碳排放,提升智算中心AIDC的能耗效率和可持续性发展。

        总体来说,算电热协同还处于处于研究和试验阶段,且算电系统的内涵表述也有较大差异,主要分为电力围绕算力调度、算力(实际是算力作业)围绕电力调度两大方向。但基于电力市场管理和交易机制的制约、并网新能源波动的影响,电力围绕算力调度相当长一段时间内商业化困难,目前主要是算力围绕电力调度进行落地。

        算热协同强调全链路热管理,指在数据中心的各层级(板上芯片、服务器、机柜、机房)实施综合的热量管理策略,调控不同层级的热负荷、气流组织路径,以实现热量的有效传递、分配和控制,确保全链路热管理性能最优,确保高热流密度散热和节能冷却目标的达成。

 

        随着未来每年算力需求以35%以上速率增长,机柜功率密度越来越高,带动基础设施供电及暖通等技术不断演讲,AIDC基础设施将朝着高效节能、AI智能运维、模块化部署的方向持续发展。未来碳排放要求带来绿色能源的深度应用,新型电力电子器件、高热效转换技术以及AI驱动智能运维及节能将成为主流趋势。