过去十年,数据中心机架功率密度从2~4kW/机架逐步增至8~12kW/机架。而在过去的2—3年,受AI需求浪潮推动,机架功率密度飙升至40~60kW/机架,部分甚至超过100kW/机架。AI任务依赖的GPU,其热设计功耗可达1200W以上,远超CPU的300~500W。此外,为了智算性能,AI工作负载需将GPU尽可能密集部署,形成超万颗及以上的超大智算集群,使得在较小空间内功率高达10~100+MW。智算单机柜功率快速跃升,是算力基于网络Scale-up的必然结果。
当前数据中心供配电体系难以应对未来超高密机柜部署,需要重构。智算中心超高密机柜供配电系统与通算数据中心的关键区别是超大功率传输、动态冲击,产生对更高电压制式、更高效率、更高功率密度、抑制动态冲击保护等方面的关键需求。
NVIDIA积极推进800V HVDC供配电架构和生态构建
鉴于GB200 NVL36和NVL72工程落地的一系列问题,为保障未来超高功率密度的智算整机柜产品从研发设计到可工程落地的顺利进行,NVIDIA利用自己在智算领域的行业地位,从新技术蓝图、行业生态两方面布局,积极推进800V HVDC架构。
NVIDIA发布的智算中心未来供配电架构
NVIDIA跳跃式选择800V HVDC制式,摒弃400V HVDC和±400V HVDC制式。根据规划,从2027年开始,NVIDIA将引领向800V HVDC数据中心电力基础设施的过渡,以支持1MW及以上的IT机架。
产品形态上有两种,一种是分布式电源边柜sidecar,内置储能锂电BBU和超容CBU,输出800V HVDC,且至少末端的800V HVDC是稳电压输出,供配电架构如图1所示。一种是电源间放置的直连电网的集中式AC/DC中压直流电源,输出800V HVDC,Server输入电压为800V,两级DC/DC转换为GPU的12V,供配电架构如图2所示。
同时整个供配电链路包括直连电网的集中式AC/DC电源、新型过流保护装置、800V HVDC安全母线(金属屏蔽层+惰性气体密封)、分布式电源边柜Sidecar,为邻近的IT机柜提供800V HVDC供电。其中集中式AC/DC电源和分布式电源边柜Sidecar的系统效率也将提升到98%级别,需要在器件、电路拓扑和散热等方面实现技术突破。
生态构建
为了推动800V HVDC被行业和客户接受,NVIDIA从超大CSP云商客户、供配电领域厂商两个方向加速推进。一方面与数据中心知名的开源组织OCP合作,公开GB200 NVL72设计,为META、微软、GOOGLE、AWS等厂商指明道路。另一方面,NVIDIA正在与数据中心电气生态系统中的主要伙伴合作,包括:
面向未来智算机柜的供配电架构和新一代HVDC电压制式
针对智算机柜超高功率挑战,行业内形成了两种供配电架构和两种新一代HVDC电压制式(见图3)。
Architecture 3,把智算整机柜里的PSU电源系统等从整机柜内移出,使整机柜形成纯IT机柜。移出的PSU电源系统,再加上可选的备电锂电BBU、超容CBU等,形成新的电源边柜Sidecar。现有数据中心前端的供配电不受影响,类似现在超算中心的做法。
Architecture 4,彻底变革,结合新能源和微网,构建全直流智算供配电系统,关键是集中式中压HVDC电源。
从NVIDIA发布的800V HVDC架构看,融合了以上两种架构,同时Sidecar采用800V HVDC输入。而北美四大CSP云商,目前更倾向Architecture 3中480Vac/400Vac输入的Sidecar,以及Architecture 4的直流微网架构。
两种新一代HVDC电压制式分别是400V和800V。±400V HVDC使机架电源系统能够从整机柜中移出,并重新部署,从而整机柜内的宝贵空间均可用于IT计算。800V HVDC因与智算节点的板载电压变比还不成熟,需要在整机柜增加一级800V HVDC到54V的DC-DC电源模块。
目前NVIDIA选择跳跃式的800V HVDC制式重点推进,北美三家头部CSP云商微软、Google、META更倾向于±400V HVDC的渐进式新型HVDC电压制式。
国内中国电信集团、信通院和百度等公司,在CCSA推进±375V HVDC(类似±400V HVDC电压制式)的立项提案,而字节在委托第三方电源厂商做新型的供配电演进路标规划,阿里和腾讯也都在关注或准备相关技术试点。
400V和800V电压制式特点如下:
新一代800V HVDC面临的挑战及发展趋势分析
800V HVDC发展在技术上面临一些待解决的问题,在生态上,发展态势尚不明朗。
技术上,首先,800V HVDC对IGBT、SiC、GaN等器件可靠性要求高,电源设计复杂度显著提升。第二,行业缺乏统一标准,800V HVDC需广泛生态支持。第三,800V HVDC带来的安全风险,导致对过流保护、维护人员安全有了更高要求。
虽然国内三大运营商已经在自用数据中心集采或省采、部分头部云商自建数据中心也主要采用240V HVDC,但整体上通算数据中心和目前智算数据中心还是UPS为主。因此800V HVDC技术即使成功,也主要面向超高密度智算机柜,而在通算数据中心和单柜100kW级的智算中心,也难以快速替代UPS。
大型和超大型智算中心的技术方案、运行数据、投入产出等,都是商业机密,尤其是在头部客户开始流行定制AI加速卡以部分替代NVIDIA GPU的情况下,是否有意愿采用NVIDIA制定的800V HVDC制式和架构路线,目前还不明朗。从北美三大云商公开的信息看,目前更倾向±400V HVDC,且架构的详细规格也不尽相同。
在展望新一代HVDC的发展之前,不妨先回顾一下HVDC 240/336V的发展情况。国际上,2010年左右谷歌、微软等公司率先试水380V HVDC,如谷歌在俄勒冈州数据中心部署380V HVDC;国内2008年,中国电信牵头推出240V HVDC,随后阿里、百度、腾讯等规模商用;2012年,中国移动推出了336V HVDC。当时,从技术上336V HVDC(等同380V HVDC)也属于跳跃式的HVDC电压制式,虽然技术和性能上领先,但行业生态一直没有成熟。反而是渐进式的240V HVDC,经过10年以上历练,最终存活了下来,并在经历专利风波后,逐渐在云商和电信运营商市场成长壮大。
800V HVDC属于跃进式电压制式,而±400V HVDC属于渐进式的电压制式,是否会重演240/336V HVDC的历史剧本,3年内还难以明朗。
总结
技术趋势上,虽然市场选择的最终电压制式还暂不明朗,但为了超高密智算机柜的可规模部署,经济性、更大的功率输出、高效节能,更高电压制式的技术方向是明确的。
产品形态上,分布式电源边柜Sidecar可能更利于前期的超高密智算机柜的灵活部署。从中长期看,集中式中压HVDC电源更适合未来新能源直接供给、直流微网、储能等构建的智算中心用能环境。两种产品的长期可靠性、经济性是成功关键。
中兴通讯从2024年开始,密集调研大型云商客户、功率器件和同行厂商,同时启动面向未来智算超高功率的电源产品和解决方案规划,目前已经完成HPPD研发立项。我们产品化的核心思路是提炼出多种功能模块的粒度,按需实现系统级的不同功能容量比例的弹性配置;同时输出电压选择大型云商看好的±400V HVDC,且±400V HVDC也支持输出800V HVDC电压。系统产品覆盖2MW级的集中电源、1MW级电源边柜Sidecar,全面支持未来智算中心的供配电需求。