生成式人工智能发展迅速,催生出大量新场景、新模式、新生态,引发算力需求爆发式增长。建设智算资源池可以为人工智能大模型训练、推理等工作提供强大的基础设施支撑,满足AI训练、推理需求。
南京吉山云计算中心,作为全国一体化算力网络长三角国家枢纽节点的核心,紧密对接国家“十四五”规划,旨在通过大数据、AI等前沿科技提供算力服务,打造高性能算力服务平台,同时整合本土生态产业链企业,共同培育“算力+生态”应用环境。南京电信携手中兴通讯共同打造了集约高效、安全可靠的国产化千卡智算资源池,为千行百业提供强大的算力支持,赋能数字经济高质量发展。
集约高效,安全可靠
资源池采用“集约高效、共享开放、安全可靠、按需服务”的理念设计,中兴通讯量身打造了业界领先的AI基础设施及平台软件,包括中兴通讯智算服务器、国产化OAM卡、中兴通讯自研RDMA交换机、自研AI平台(AIS)和资源管理平台(TECS),全面覆盖智算训练和推理全流程。同时,为该资源池定义了数据处理和分析流程,包括数据的收集、清洗、转换、分析和可视化等步骤,可根据企业的具体需求和业务场景来进行定制。资源池整体架构如图1所示。
开放生态,优算提效
面向智算生态不开放,存在厂家绑定、资源整合难、运营成本高、生态建设难等问题,中兴通讯千卡智算资源池基于模型解耦、训推解耦、软硬件解耦等方式,积极探索统一生态建设途径,打造开放、解耦的生态。
大模型的训练周期长,训练中断是影响训练效率的核心问题。提供长时稳定的训练环境是大模型训得快的必要保障。中兴通讯智算资源池实现集群资源可管可视,故障能够快速定位、隔离、修复,提供高效的训练中间文件缓存以及读取、断点续训机制,缩短模型训练中断时间。
此外,传统大模型推理还面临算力成本高的问题。推理场景、客户需求侧重都有所不同,如果为所有业务不加区别地提供算力和服务,是对资源的浪费,也难以获得成本竞争优势。构建多样化的推理算力,为不同的业务需求选择恰到好处的推理算力服务是实现性价比最优的必要手段。智算资源池在算法层通过模型优化、模型压缩等多种手段降低模型规模和对算力的需求,基于业务量的潮汐效应,做到算力按需部署、弹性伸缩,发挥算力的最大价值,降低成本。
以网强算,自主创新
在智算中心,数据密集型任务(如大规模AI模型训练)需要在短时间内传输海量数据,当多个计算任务同时进行,尤其是在数据并行或模型并行的计算场景中,网络需要处理大量的并发数据传输。但网络设备的吞吐量有限,容易出现拥塞,使得数据传输效率降低。在智算中心内部不同计算节点之间需要频繁通信协作以及计算任务对存储设备的数据访问均需要快速响应。除此之外,随着智算中心计算资源的不断扩充,对网络的扩展性提出了更高要求。传统网络架构在添加新的计算节点或存储设备时,可能需要重新配置网络拓扑结构、更换网络设备,这会导致网络扩展的周期长、成本高。
南京电信本次建设的国产化千卡智算资源池采用中兴通讯ZXR10 9900X/5960M/5960X系列交换机。作为中兴通讯面向智算数据中心网络的旗舰级产品,凭借其创新的硬件架构设计、高性能可编程产品与智能化软件生态系统,实现了对智算和通算全场景的无缝覆盖,并在RoCE(基于RDMA的以太网)无损网络领域树立了行业标杆。
该系列交换机融合了全局均衡调优iGLB技术与端网协同ENCC算法,实现了高达98%的全网吞吐效率与微秒级快速流量拥塞调控,为大规模模型训练提供了零丢包、极致吞吐、超低时延的无损网络环境。同时,其强大的灵活扩展性支持万卡级智能计算集群的超大规模组网,满足未来数据中心对算力与性能的极致追求,通过网络“无损”实现AI算力“无损”。
在算力产业蓬勃发展的当下,南京电信与中兴通讯强强联合,成功搭建千卡国产化GPU资源池,意义深远。这一举措不仅有力推动了国产化技术的广泛应用,显著提升了自主可控能力,更有效促进了产业上下游的协同共进,形成强大示范效应,为地区算力产业生态的构建注入了强劲动力。