中兴通讯系列化智算服务器方案,助力数字经济蓬勃发展

发布时间:2024-03-22 作者:中兴通讯 周赞鑫 阅读量:

        人工智能(AI)领域正迎来新一轮快速发展,生成式AI对算力的需求迅速增加,这将成为AI计算市场新的增长点和加速器。

 

中国智算服务器市场

 

        2023年中国智算服务器保持了快速增长。据IDC2023H1数据统计,2023年加速服务器预计发货规模达31.6万台,同比增长11.3%;营收约89.9亿美元,同比增长79.7%;其中GPU加速服务器(智算服务器)占比约90%。IDC预测,2027年加速服务器营收将加速增长,达164亿美元;发货规模将达到69.1万台。

        目前,单机配置8或4张GPU加速卡的智算服务器是客户的主流选择,其中Nvidia GPU加速卡依然是市场主流,份额高达90%左右。此外,面向推理方向应用的智算服务器份额约占60%左右。

 

AI应用对智算服务器的要求

 

        智算服务器相比通用服务器主要有以下特点:

        - 高性能CPU:AI训练和推理需要大量的计算资源,需要配备高性能CPU,以满足大数据集的处理需求。

        - GPU加速卡:GPU可以提供比CPU更高效的并行计算,从而加速深度学习模型的训练和推理,插卡型GPU加速卡可以满足大部分中小模型训练&推理应用需求,单台服务器支持4~8张GPU加速卡实现并行处理,可提升计算性能和效率。

        - 大容量内存:具有足够容量的内存可以加速数据流和算法处理速度。

        - 高带宽网络接口:需要高速网络带宽(100Gbps及以上),以便在训练过程中传输大量数据。

        AI大模型的兴起对智算服务器提出了更高的要求,特别是大模型训练计算量巨大,单个GPU无法满足训练算力需求,需要使用单机多卡或多机集群实现TP/DP/PP等并行训练。大模型对智算服务器的特殊要求体现在以下几个方面:

        - 高性能&大显存GPU:大模型需要大量的并行计算能力,且需要存储大量的参数和梯度信息,因此需要高性能&大显存GPU来进行训练和推理。

        - 机内GPU高速互联:单机多卡TP并行对智算服务器的多个GPU之间通信带宽有极高的要求,需要使用支持高速互联通道的扣卡型GPU加速卡,实现机内8卡高速互联,以加速数据传输和模型同步。

        - 机间高性能互联网络:采用多机集群时,为了充分发挥GPU集群计算资源的强大算力,机间参数面互联网络需采用高速多轨道流量聚合架构。一方面,要求PCIe5.0插槽以便使用200/400G高性能、低延迟的IB/RoCE网卡;另一方面,要求至少10个以上网卡插槽,管存面至少2个网卡,GPU和参数面网卡按照8:8配比,以实现多台智算服务器间相同位置GPU卡所连参数面网卡都归属于同一交换机,优化通信效率,加速并行传输。

        - 高速内存&存储:大模型训练过程中需要快速读取和写入数据,需支持DDR5内存和NVMe SSD等高速部件提供更高的数据传输速度和更低的延迟,从而提高训练效率。

        - 液冷散热:扣卡型GPU加速卡的超高算力密度导致智算服务器功耗激增,风冷方案限制了智算数据中心的算力密度,且无法满足节能降耗要求,液冷散热是必选方向。

        鉴于大模型训练推理对智算服务器提出的特殊要求,需要设计专用的智算服务器以适配扣卡型GPU卡和机内机间高速互联网络,并进行合理的配置和优化,使其不断适应新的挑战和要求。

 

中兴通讯智算服务器“3+2+3”方案

 

        为应对人工智能的快速规模发展,中兴通讯推出“3+2+3”智算服务器解决方案,全面满足各行各类客户的AI全场景应用需求(见图1)。

基于3大CPU平台

        中兴通讯针对3大CPU平台都已推出不同形态的智算服务器,满足客户的多样性CPU选择需求,包括业界主流的国外X86架构CPU平台、国产X86架构CPU平台,以及中兴通讯自研ZFX CPU平台。

 

支持2种GPU形态

        中兴通讯智算服务器支持插卡型GPU加速卡和扣卡型GPU加速卡(支持卡间高速互联),比如SXM扣卡型GPU加速卡(Nvidia)或OCP OAM扣卡型GPU加速卡(壁仞、寒武纪等)。

 

面向3类应用场景

        中兴通讯系列化智算服务器具有多种组合方式,满足大、中、小不同等级的AI模型训练、推理场景。

        - 小模型训练&中小模型推理场景:采用通用机架服务器,单服务器配置4张双/单宽全高GPU插卡或6/8张单宽半高GPU插卡,对应中兴通讯R53xx/59xx系列服务器。

        - 中小模型训练&大模型推理场景:采用专用插卡型智算服务器,单服务器配置8张(或10张)双宽全高全长GPU卡或16张(或20张)单宽全高全长GPU卡,对应中兴通讯R65xx系列智算服务器。

        - 大模型训练场景,采用专用扣卡型智算服务器,单服务器配置8张SXM/OAM GPU卡,为满足多节点集群计算需求,GPU&参数面互联网卡&NVMe SSD支持1:1:1配置,对应中兴通讯R69xx系列智算服务器。

 

        智算服务器市场正在经历一个快速发展的阶段,已成为服务器市场中的高增长领域,且未来几年的复合增速也有望保持在较高水平。中兴通讯推出的系列化智算服务器,为用户提供优质、高效的最强算力解决方案,以坚实的智算基础设施助力数字经济进一步蓬勃发展。