GPU、DPU、存储介质协同的新型AI存储架构

发布时间:2026-04-20 作者:中兴通讯 郭伟

        随着“Agentic AI”和长上下文模型的快速发展,作为模型“记忆”载体的KV Cache(键值缓存)规模呈爆炸式增长,已成为当前AI基础设施在推理阶段的主要性能与能效瓶颈。传统存储架构主要面向数据持久化设计,难以高效支撑KV Cache这类对性能极度敏感、具有短暂性与可重计算特性的“AI原生”数据,导致GPU资源频繁空转,严重制约了AI工厂的规模化部署与成本优化,AI推理挑战已经从原来的“算力墙”演变为“存储墙”。未来面向智算场景的新型存储架构需要融合硬件创新、网络创新、软件算法优化,突破AI推理瓶颈制约。

 

AI计算范式转变下的存储挑战

 

        大模型推理分为Prefill和Decode两个阶段。Prefill为计算密集型,处理用户输入提示(prompt);Decode为访存密集型,逐个生成后续Token。在多轮对话中,若不采用缓存机制,历史Token的Key-Value(KV)矩阵需在每次推理时重复计算,造成显著冗余。KV Cache通过将已计算的KV状态缓存于显存中,实现“空间换时间”,避免重复计算,大幅提升推理效率。

        当前AI计算范式正经历根本性变革,传统短上下文、单轮交互模式已逐步被长上下文、多轮对话及多智能体(Agentic AI)协同执行的复杂场景取代,表现为三大趋势:

  • 上下文长度爆炸式增长:从数千Token扩展至百万级,KV Cache数据量远超单GPU显存容量(如GPT-3的KV Cache可达模型参数占用显存的一半以上);

  • 推理即“思考过程”:推理不再是一次性答案,而是一个思考过程,通过测试时扩展提升答案质量,导致生成Token数量年均增长5倍,显著增加KV Cache的读写压力;

  • 长短期记忆需求:AI系统需支持跨数周的多轮交互记忆,要求KV Cache具备长期可访问性与高效管理能力。
     

        尽管KV Cache提升了计算效率,但也引发新的系统瓶颈:

  • “存储墙”问题突出:KV Cache对带宽敏感,且规模庞大,易成为性能瓶颈;

  • 传统存储架构不匹配:现有存储设计强调数据持久化与容错,而KV Cache具有短暂性、可重计算、高频读写的特点,导致其访问路径过长、延迟高;

  • GPU资源严重浪费:约30%~40%的GPU计算资源消耗于KV Cache的数据搬运与低效读写,导致GPU利用率不足50%,推高AI推理单位成本。

 

中兴通讯以“多要素协同”构建新型存储架构

 

        中兴通讯依托近20年来在存储领域软件架构、全自研硬件和芯片技术上持续的技术积累,以及近年来在智算领域的深度参与和思考,推出“DPU+智能盘框+KV Pool软件”的高性能新型存储解决方案。

        如图1所示,方案采用以DPU为中心的多级缓存平台的存算分离架构。DPU承担存储协议栈处理、数据高效转发卸载和数据传输优化等关键任务,使得GPU能够专注于业务处理,存储节点聚焦存储低延迟、高带宽的缓存数据。方案提供DPU、RDMA网络、存储智能盘框的端到端纯硬件调优,支持合作伙伴自己的KV Cache存储管理软件“拎包入住”;也可提供不同层面的端到端全套自主可控的软、硬件的新型存储方案。通过软件重构并卸载到计算侧DPU,结合专门设计的KV接口,即消除东西向副本同步流量,方案实现了存储网络带宽的高效利用,同时减少了冗余数据传输,比传统存储网络利用效率提升了3~5倍,数据访问时延降低50%以上。

 

        方案采用多项关键技术创新,基于专为智算优化的存储架构将不同存储介质构建分层管理,实现KV数据路径DPU卸载、GPU直通与极简协议交互,配套自研智能调度系统优化,极大提升了长上下文推理效率。

  • 多级缓存平台:综合利用DRAM、SSD、远端NVMe盘框分层构建共享池;可分层灵活组合开启,硬件资源占用可灵活调整。

  • 多要素协同,构建PoD级的共享上下文记忆空间:专为智算设计的存储智能盘框,支持全NVMe,NVMe-oF接入,裸盘访问;NVMe-oF在DPU硬件卸载转发,KV数据路径计算卸载在计算侧本地,优化数据传输路径;NVMe-oF零拷贝,GPU直通存储协议;重新设计KV Cache PUT/GET专用接口,无协议转化;极简存储架构,去除冗余的元数据管理和强一致性等设计。

  • 面向KV的推理调度增强:自研智能KV Cache管理调度系统,优化推理调度算法,实时分析推理请求变化特征,动态调整存储层级与分配策略;设计自适应缓存替换算法,依据数据访问频率与重用概率智能筛选保留或淘汰数据,将缓存命中率提升至70%以上。

 

        随着AI计算范式的不断迭代进化,对AI业务新型存储架构提出更高要求。中兴通讯将继续践行“技术创新,以存助算”的指导思想,持续创新,探索DPU加速、存算一体、先进介质等先进硬件与新型存储架构结合的可行性,构建开放、共享的软件生态环境,协助AI新型存储行业标准构建,为攻克“存储墙”的AI计算范式变革夯实基础。