中兴通讯智算AI平台,助力大模型训推工程化

发布时间:2024-03-22 作者:中兴通讯 周祥生,孙文卿 阅读量:

        在数据爆发式增长、算法性能持续提升以及算力产品不断跨越迭代的背景下,我们正处在AI引领产业全方位变革的阶段。此过程中,AI平台扮演着至关重要的角色。AI平台通过集约化管理数据、算力、算法和服务,将作坊式、离散的算法研究转为标准化、自动化的生产流程,避免重复造轮子,让用户聚焦于智能业务中的高价值问题。

 

AI平台成为企业智能化转型的关键基础设施

 

        AI平台充当着连接计算力与算法的关键桥梁,它不仅将算法开发过程中的共性需求工具化、流程化,而且向用户提供定制化的能力和服务。同时,平台还要具备共享复用、高效训练推理、快速交付、持续迭代的特性。为此,中兴通讯开发了异构算力管理与AI模型训练推理平台——智算AI平台。平台由硬件适配层、引擎层、服务层和能力层组成(见图1)。

 

 

        - 硬件适配层:成千上万的GPU、CPU提供算力,既支持国际主流显卡,也对国产显卡进行了适配。

        - 引擎层:包括机器学习引擎、超参调优引擎、训练引擎、编译引擎以及推理引擎。该层集成了多种高性能训练和推理引擎框架,如Tensorflow、Pytorch、Oneflow、Deepspeed等。

        - 服务层:服务层包括数据集管理、数据标注、模型训练、超参调优、模型评测、模型编译及模型推理等服务,涵盖AI模型端到端的全业务。

        - 能力层:内置多种解决实际问题的算法包、推理包,供直接部署和调用。

        从基础算力和调度技术、深度学习框架及引擎,到NLP、视觉、语音、大模型等感知、认知能力,AI平台作为推动企业智能化转型的关键基础设施,不仅整合了计算硬、软件工具,还提供了AI算法的研发接口。通过这种全面的整合,AI平台大大提高了资源的利用效率,加速了AI的落地应用。

 

从“大炼模型”转向“炼大模型”

 

        当前,在AI落地场景中,许多解决中间任务或特定领域任务的小模型正被通用性更强的大模型所取代,人工智能全面向AGI(artificial general intelligence)转型。伴随而来的,是大模型对完备、稳定且高效的数据存储和清洗方式、训练推理技巧、集群资源的需求日益增长,这给AI平台的建设提出了新的挑战。

        大模型的出现,带来了模型结构和训练-推理(训推)范式的统一化。首先,Transformer结构一直是骨干模型基本部件的首选;其次,在训练和推理方法上,以大语言模型为例,OpenAI最初提出的训练方法(包括预训练、指令精调、强化学习精调)和推理方法(如随机采样解码)仍是大模型训推的主流解决方案。

        然而,这种结构和应用范式的统一并没有缩小行业平均水平与AI头部公司之间的差距,而是将AI竞争的焦点从算法研发创新转移到了大模型训推工程化的规模和效率的竞争上。这就使得集成大模型训练和推理关键技术成为AI平台建设的首要需求。

 

大模型训推工程化关键技术

 

        大模型训练和推理过程中的关键技术包括分布式训练技术、大模型推理加速技术、大模型评估技术和大模型数据工程。

        - 分布式训练技术:分布式训练能将训练扩展到多个AI硬件上,从而突破单个硬件内存和算力的限制。中兴通讯智算AI平台已集成3D混合并行技术,以及自主研发的自动并行工具,这些工具支持数据并行(DP)、张量并行(TP)、流水线并行(PP)以及激活重计算等大模型训练技术,并能根据集群和模型特点自动调整并行超参。

        - 大模型推理加速技术:大模型推理加速技术是降低推理过程中显存消耗和计算延迟的综合技术。智算AI平台从服务调度、显存优化、量化压缩及算子融合等多个方面提高推理效率。在中兴通讯推出的业界首个基于大模型的“智御”短信反诈治理系统中,智算AI平台所提供的推理方案相比于业界通用方案,成功将推理时延降低30%。

        - 大模型评估技术:大模型评估方法与传统模型区别很大。为此,智算AI平台一方面提供了全面的客观评估数据集,从多维度评估大模型的性能。其次,平台融合了基于模型的评估机制,评估生成内容的语义准确性和逻辑连贯性。

        - 大模型数据工程:高质量训练数据能够缓解大模型幻觉问题,缩短训练周期。智算AI平台提供了Model-in-the-loop的数据标注、SFT数据生成与扩充、数据清洗与去重、质量评估、隐私保护等智能化数据工程流水线。

 

        凭借大模型工程化关键技术的支撑,中兴通讯的智算AI平台在公司内部及与国内运营商客户的合作中已取得初步成效。在公司层面,AI平台支持了电信、编码、CV以及多模态等领域多个大模型的训练。在运营商客户方面,AI平台完成了客户集团31个省份训推集群建设,提供了模型训练、模型管理和推理服务等九大核心功能,成为客户AI开发的重要工具云。