随着“Agentic AI”和长上下文模型的快速发展,作为模型“记忆”载体的KV Cache(键值缓存)规模呈爆炸式增长,已成为当前AI基础设施在推理阶段的主要性能与能效瓶颈。传统存储架构主要面向数据持久化设计,难以高效支撑KV Cache这类对性能极度敏感、具有短暂性与可重计算特性的“AI原生”数据,导致GPU资源频繁空转,严重制约了AI工厂的规模化部署与成本优化,AI推理挑战已经从原来的“算力墙”演变为“存储墙”。未来面向智算场景的新型存储架构需要融合硬件创新、网络创新、软件算法优化,突破AI推理瓶颈制约。
AI计算范式转变下的存储挑战
大模型推理分为Prefill和Decode两个阶段。Prefill为计算密集型,处理用户输入提示(prompt);Decode为访存密集型,逐个生成后续Token。在多轮对话中,若不采用缓存机制,历史Token的Key-Value(KV)矩阵需在每次推理时重复计算,造成显著冗余。KV Cache通过将已计算的KV状态缓存于显存中,实现“空间换时间”,避免重复计算,大幅提升推理效率。
当前AI计算范式正经历根本性变革,传统短上下文、单轮交互模式已逐步被长上下文、多轮对话及多智能体(Agentic AI)协同执行的复杂场景取代,表现为三大趋势:
尽管KV Cache提升了计算效率,但也引发新的系统瓶颈:
中兴通讯以“多要素协同”构建新型存储架构
中兴通讯依托近20年来在存储领域软件架构、全自研硬件和芯片技术上持续的技术积累,以及近年来在智算领域的深度参与和思考,推出“DPU+智能盘框+KV Pool软件”的高性能新型存储解决方案。
如图1所示,方案采用以DPU为中心的多级缓存平台的存算分离架构。DPU承担存储协议栈处理、数据高效转发卸载和数据传输优化等关键任务,使得GPU能够专注于业务处理,存储节点聚焦存储低延迟、高带宽的缓存数据。方案提供DPU、RDMA网络、存储智能盘框的端到端纯硬件调优,支持合作伙伴自己的KV Cache存储管理软件“拎包入住”;也可提供不同层面的端到端全套自主可控的软、硬件的新型存储方案。通过软件重构并卸载到计算侧DPU,结合专门设计的KV接口,即消除东西向副本同步流量,方案实现了存储网络带宽的高效利用,同时减少了冗余数据传输,比传统存储网络利用效率提升了3~5倍,数据访问时延降低50%以上。
方案采用多项关键技术创新,基于专为智算优化的存储架构将不同存储介质构建分层管理,实现KV数据路径DPU卸载、GPU直通与极简协议交互,配套自研智能调度系统优化,极大提升了长上下文推理效率。
随着AI计算范式的不断迭代进化,对AI业务新型存储架构提出更高要求。中兴通讯将继续践行“技术创新,以存助算”的指导思想,持续创新,探索DPU加速、存算一体、先进介质等先进硬件与新型存储架构结合的可行性,构建开放、共享的软件生态环境,协助AI新型存储行业标准构建,为攻克“存储墙”的AI计算范式变革夯实基础。