选择语言

中兴通讯系列化智算服务器方案，助力数字经济蓬勃发展

发布时间：2024-03-22 作者：中兴通讯周赞鑫

人工智能（AI）领域正迎来新一轮快速发展，生成式AI对算力的需求迅速增加，这将成为AI计算市场新的增长点和加速器。

中国智算服务器市场

2023年中国智算服务器保持了快速增长。据IDC2023H1数据统计，2023年加速服务器预计发货规模达31.6万台，同比增长11.3%；营收约89.9亿美元，同比增长79.7%；其中GPU加速服务器（智算服务器）占比约90%。IDC预测，2027年加速服务器营收将加速增长，达164亿美元；发货规模将达到69.1万台。

目前，单机配置8或4张GPU加速卡的智算服务器是客户的主流选择，其中Nvidia GPU加速卡依然是市场主流，份额高达90%左右。此外，面向推理方向应用的智算服务器份额约占60%左右。

AI应用对智算服务器的要求

智算服务器相比通用服务器主要有以下特点：

- 高性能CPU：AI训练和推理需要大量的计算资源，需要配备高性能CPU，以满足大数据集的处理需求。

- GPU加速卡：GPU可以提供比CPU更高效的并行计算，从而加速深度学习模型的训练和推理，插卡型GPU加速卡可以满足大部分中小模型训练&推理应用需求，单台服务器支持4~8张GPU加速卡实现并行处理，可提升计算性能和效率。

- 大容量内存：具有足够容量的内存可以加速数据流和算法处理速度。

- 高带宽网络接口：需要高速网络带宽（100Gbps及以上），以便在训练过程中传输大量数据。

AI大模型的兴起对智算服务器提出了更高的要求，特别是大模型训练计算量巨大，单个GPU无法满足训练算力需求，需要使用单机多卡或多机集群实现TP/DP/PP等并行训练。大模型对智算服务器的特殊要求体现在以下几个方面：

- 高性能&大显存GPU：大模型需要大量的并行计算能力，且需要存储大量的参数和梯度信息，因此需要高性能&大显存GPU来进行训练和推理。

- 机内GPU高速互联：单机多卡TP并行对智算服务器的多个GPU之间通信带宽有极高的要求，需要使用支持高速互联通道的扣卡型GPU加速卡，实现机内8卡高速互联，以加速数据传输和模型同步。

- 机间高性能互联网络：采用多机集群时，为了充分发挥GPU集群计算资源的强大算力，机间参数面互联网络需采用高速多轨道流量聚合架构。一方面，要求PCIe5.0插槽以便使用200/400G高性能、低延迟的IB/RoCE网卡；另一方面，要求至少10个以上网卡插槽，管存面至少2个网卡，GPU和参数面网卡按照8:8配比，以实现多台智算服务器间相同位置GPU卡所连参数面网卡都归属于同一交换机，优化通信效率，加速并行传输。

- 高速内存&存储：大模型训练过程中需要快速读取和写入数据，需支持DDR5内存和NVMe SSD等高速部件提供更高的数据传输速度和更低的延迟，从而提高训练效率。

- 液冷散热：扣卡型GPU加速卡的超高算力密度导致智算服务器功耗激增，风冷方案限制了智算数据中心的算力密度，且无法满足节能降耗要求，液冷散热是必选方向。

鉴于大模型训练推理对智算服务器提出的特殊要求，需要设计专用的智算服务器以适配扣卡型GPU卡和机内机间高速互联网络，并进行合理的配置和优化，使其不断适应新的挑战和要求。

中兴通讯智算服务器“3+2+3”方案

为应对人工智能的快速规模发展，中兴通讯推出“3+2+3”智算服务器解决方案，全面满足各行各类客户的AI全场景应用需求（见图1）。

基于3大CPU平台

中兴通讯针对3大CPU平台都已推出不同形态的智算服务器，满足客户的多样性CPU选择需求，包括业界主流的国外X86架构CPU平台、国产X86架构CPU平台，以及中兴通讯自研ZFX CPU平台。

支持2种GPU形态

中兴通讯智算服务器支持插卡型GPU加速卡和扣卡型GPU加速卡（支持卡间高速互联），比如SXM扣卡型GPU加速卡（Nvidia）或OCP OAM扣卡型GPU加速卡（壁仞、寒武纪等）。

面向3类应用场景

中兴通讯系列化智算服务器具有多种组合方式，满足大、中、小不同等级的AI模型训练、推理场景。

- 小模型训练&中小模型推理场景：采用通用机架服务器，单服务器配置4张双/单宽全高GPU插卡或6/8张单宽半高GPU插卡，对应中兴通讯R53xx/59xx系列服务器。

- 中小模型训练&大模型推理场景：采用专用插卡型智算服务器，单服务器配置8张（或10张）双宽全高全长GPU卡或16张（或20张）单宽全高全长GPU卡，对应中兴通讯R65xx系列智算服务器。

- 大模型训练场景，采用专用扣卡型智算服务器，单服务器配置8张SXM/OAM GPU卡，为满足多节点集群计算需求，GPU&参数面互联网卡&NVMe SSD支持1:1:1配置，对应中兴通讯R69xx系列智算服务器。

智算服务器市场正在经历一个快速发展的阶段，已成为服务器市场中的高增长领域，且未来几年的复合增速也有望保持在较高水平。中兴通讯推出的系列化智算服务器，为用户提供优质、高效的最强算力解决方案，以坚实的智算基础设施助力数字经济进一步蓬勃发展。

本期相关文章

大模型+5G，赋能行业智能化

大模型赋能通信运维智能提效

中兴通讯智算AI平台，助力大模型训推工程化

面向AI大模型训练的高性能网络

多样化的AI芯片

面向大模型，中兴通讯全栈智算解决方案赋能千行百业

2024年AI Agent技术洞察：高朋满座，群智涌现

智能算力发展趋势洞察

打造新型智算，赋能千行百业