当前我国智算产业已初具规模,但在核心技术攻关、生态建设、运营效率等方面仍面临严峻挑战,亟待推动产业链协同创新,实现智算产业从规模扩张向质量提升转型,筑牢人工智能高质量发展根基。电网作为国家关键基础设施,迫切需要数智化转型。人工智能技术成为应对能源转型、提升电力系统运营效率的关键手段,可有效解决新型电力系统中海量数据接入、实时响应与安全稳定等挑战,实现云-边-端协同互动,全面赋能发、输、变、配、用各环节。
然而,电网智能化升级面临高性能算力技术挑战,构建自主可控的算力基础设施已成为保障国家能源高质量发展的必然选择。南方电网积极响应“人工智能+”等国家战略,发布人工智能专项规划,打造安全可信的算力底座。通过统筹全网算力资源,构建网络化、普惠化、绿色化算力供给体系,为新型电力系统建设、高质量样本库构建以及数据安全防护等场景提供高密度、高可靠算力支撑,全面提升电网数智化核心能力。
智算中心是能源行业重要基础设施,南方电网携手中兴通讯、百度公司,强强联合,打造国内能源行业首个千卡级全栈自主可控智算中心。该中心构建了从底层芯片、整机硬件、算力集群,到软件算法、平台支撑,再到上层智能应用的全链条自主技术体系,实现核心技术全栈贯通。三方通过深度协同优化,筑牢高性能、高可靠、高安全的自主可控算力底座,全方位保障电网核心业务平稳高效运行,大幅提升能源行业智能化基础设施的自主可控水平与安全运行韧性。南方电网千卡智算中心整体架构如图1所示。
以“芯”强“算”:全栈自主可控芯片协同,构建高效算力根基
随着芯片制程逼近物理极限,当前智算产业正从“单点性能突破”转向“系统级协同创新”。本项目采用“CPU+GPU+网络芯片+内存+存储”一体化芯片,通过算、存、传芯片的协同设计和优化,释放系统级算力潜能。
服务器节点采用X86架构CPU,保障通用计算任务稳定高效运行;AI训练和推理节点搭载高性能的昆仑芯GPU,单卡算力和显存容量优于主流竞品20%~50%;在RDMA网络层面,服务器侧网卡采用中兴通讯自研的“定海”芯片,交换设备中搭载了自研“天屹”交换芯片,支持400G高速互联,为大规模AI集群提供无阻塞网络支撑。BMC(基板管理控制器)管理芯片、电源管理单元、光模块、存储颗粒等关键部件均实现自主可控相关认证,形成从芯片到模组的完整供应链闭环。
以“网”强“算”:高性能无损网络架构,打通算力协同“大动脉”
针对AI训练对网络带宽、时延、稳定性提出的极致要求,本项目创新构建“四维网络平面”体系,实现算力网络深度融合。业务网络承载AI训练任务数据流,支持跨节点资源共享与分布式存储访问,保障大规模模型训练的高并发读写;管理网络实现GPU、CPU、交换机、存储等异构设备的统一监控与远程运维;参数面网络采用中兴通讯自研“定海”网卡和交换机以及端网协同技术,实现无损互联;样本面网络连接智算集群与高性能并行文件系统,实现TB级样本数据毫秒级加载。
依托算网深度融合技术,全面提升网络吞吐性能、降低传输丢包率,为千卡级集群构筑高效可靠的无损网络底座。
以“软”强“算”:全栈软件平台整合,打造智能调度中枢
多方协同构建覆盖“训练、推理、运维”全生命周期的自主可控软件平台体系,打造“人工智能创新平台”,实现对算存网资源的统一纳管与智能调度。人工智能创新平台支持基于负载预测和任务优先级的动态资源分配、资源弹性伸缩与负载均衡,算力利用率提升40%以上。在此项目中,中兴通讯携手芯片厂商深度优化深度学习框架,完成算子级适配与编译优化;并提供一站式模型迁移工具、集群仿真系统,开展多个电力专用AI模型的迁移适配,并深度参与训推优化,提升训练收敛效率和推理性能,加速电力行业AI应用落地。
以“算”生“智”:垂直场景深度适配,释放AI业务价值
电力自主可控千卡智算中心建成投运,为电力行业高价值、高并发、强实时场景的AI转型构筑了高效可靠的使能底座。目前,南方电网依托该底座全面开展输变电一体化无人机精细化巡视全流程智能应用,实现全程无人自主作业,构建调度、任务、执行、回传、识别一体化闭环工作体系;同时打造全国首个规模化一站式电力智能巡检体系,大幅提升巡检效率,有效降低线路跳闸率,为电网安全稳定运行提供坚实技术支撑。
中兴通讯深耕电力行业多年,充分了解电网调度、设备运维等核心业务场景需求,凭借异构算力融合、AI模型优化等ICT技术积淀,以“业务理解+技术落地”双重优势,精准匹配南方电网公司加快人工智能与电力业务的深度融合的需求。同时,中兴通讯秉承开放解耦的理念,与芯片厂商、平台厂商深度合作,建立“技术共研、标准共建、成果共享”协同机制,推动自主可控算力在能源高门槛场景规模化落地。