存智赋能,加速数据破茧

发布时间:2025-03-27 作者:中兴通讯 郭伟

        存储系统在AI基础设施整体规划中的战略地位正在发生根本性转变。当前,优质数据的缺乏已成为制约AI应用落地的主要瓶颈。随着数据需求的急剧增长,AI的普及推动了存储系统从单纯追求性能向综合能力(如数据管理、访问效率、可靠性等)转变,构建智算数据存储系统既令人振奋又极具挑战性。智算存储系统需要从整个存储栈上实现创新,将不同领域的先进技术结合专业硬件和软件进行深度创新以及协同设计,从而向客户提供无缝、一致且可靠的高价值存储解决方案。

 

超万卡集群存储核心需求及挑战

 

        AI对存储的需求几乎涵盖存储系统的所有方面:高性价比、高可用性、极致性能(高IOPS、高吞吐量)和安全性。更具挑战的是,AI流水线的不同阶段对存储也提出差异且动态变化的需求,在满足万卡训练基本需求的同时,如何最大化GPU利用率并最小化数据移动带来的延迟,成为存储面临的核心挑战。

        我们梳理了存储系统在万卡/超万卡这种大规模AI计算中面临的四大关键挑战:

  • 断点续训更加频繁,单Checkpoint容量更大且保存周期更短

        GPU卡规模从千卡扩展到10万卡,随着规模增大,硬件故障率上升,使得断点续训成为常态;训练模型参数从千亿提升到10万亿以上,单Checkpoint大小随模型参数增大,从GB级别提升到PB级别,模型训练效率提升需要更加高效的Checkpoint读写效率。

  • 数据集增大,训练全流程数据搬迁耗时长

        随着模型训练参数量提升,训练数据集容量增大10倍以上;同时,训练模型从NLP演进到多模态,图片和视频等多模态样本数据量增大,PB级数据归集和预处理时间变长;模型训练对数据需求的爆发式增长,网络抓取、私域数据、数据合成等多种途径预计会成为训练原始数据的主要来源,需要更灵活的数据处理方式。

  • 大集群高并发IO读写,导致存储IO瓶颈

        并发访问冲突进一步加剧,AI训练环节多客户端读写同一文件并发冲突变大,单点阻塞会导致数据无法加载;万卡集群并发度进一步提升,上万客户端同一时刻需访问同一公共文件片段;文件数量发生变化,海量小文件数量从上亿规模提升到上百亿规模,对文件系统元数据管理和索引效率提出挑战。

  • 万卡集群训练任务和数据热点不完全匹配,数据准备时间长

        数据匹配度不高,训练任务开始所需数据集和存储基于访问热点分层策略的数据并不能完全匹配,训练前需要将训练数据集从温存储拷贝到热存储,训练任务一直处于等待状态,数据准备时间长。

 

中兴通讯智算存储解决方案

 

        在智算中心存储系统领域,人们通常更热衷于探讨如何提升存储产品自身的性能、功能及特性。但我们坚信,为客户切实解决实际难题的核心在于:提供与智算场景高度契合的定制化存储解决方案,让客户无需再为存储的使用与管理耗费精力。

        中兴通讯凭借近年来在智算领域深度参与积累的丰富经验和深度思考,不仅为客户提供端到端的软件、硬件全自研存储产品家族,还精心打造了私有客户端、高性能多级缓存系统、数据预加载等存储加速插件,供客户灵活搭配。图1展示了中兴通讯自研全局文件系统,这些组件协同工作,为专业客户量身打造高效、可扩展且高度联动的智算存储解决方案。

 

关键技术

        围绕自研全局文件系统,中兴通讯通过丰富的缓存加速插件部署、高效的数据联动设计、极致的组件性能优化和高效的数据管理,构建先进存储基座,推动AI全流程效率加速。

  • 通用、灵活、高效的分级分层缓存插件

        部署上更加通用,缓存插件和GPU硬件、模型、训练框架解耦;策略上读写缓存策略分离,写缓存可在不同介质中灵活选择;介质上采用Memory内存+GPU本地存储+持久化存储组合,以满足不同AI场景需求。

  • 训练存储联动,实现数据预热

        训练任务通过存储策略公共API与后端存储形成数据联动,并能根据数据生命周期配置策略,通过开放API接口确保数据在冷热层高效流转。

  • 私有客户端组件优化

        方案支持完整的POSIX协议接口,多客户端可无锁访问同一文件;客户端能自动感知存储集群拓扑,具备高效IO分发和智能IO聚合能力。

  • 全局数据管理

        采用统一命名空间和异构存储池管理,保障端到端数据强一致性,进行多级可靠性设计。

 

方案核心亮点

        中兴通讯智算存储解决方案可提升训练效率,减少存储网络负载,提供极致性能,实现多元融合,保障数据安全与高效利用。

  • 加速Checkpoint保存和读取,减少训练中断、恢复时间,提升模型训练效率;
  • 降低训练中外置存储依赖,减少存储网络负载,通过断点续训全栈流程改进,实现训练任务分钟级恢复;
  • 提供极致性能,集群带宽>10TB/s,集群IOPS>10亿,单文件系统最大文件数>1000亿;
  • 实现多元融合,不同应用协议可访问同一个数据集,无需数据搬迁拷贝,摆脱数据孤岛,确保数据安全。

 

        随着数据规模扩大、训练集群能力增强、模型落地应用日益多样,行业对新型智算存储底座提出更高要求。中兴通讯将继续践行“存智赋能,加速数据破茧”的指导思想,在以下几个方面持续开展协同技术创新:在分布式缓存加速、数据拉远训练、训练数据统一生命周期管理等智算应用场景下,实现创新方案突破,强化提升智算存储基础设施竞争力;持续探索xPU加速、存算一体、先进介质等先进技术领域与智算数据中心结合的可行性,为数据创新变革夯实基础。