## EPP前缀缓存路由:利用对话续写预测将KV缓存命中率提升至81% 在大模型推理的生产环境中,前缀缓存(Prefix Caching)是降低延迟和成本的核心技术。但长期以来,几乎所有主流推理框架都使用LRU(最近最少使用)作为缓存淘汰策略——这是一种通用算法,对LLM对话场景的预测能力极为有限。 一篇发表在OpenReview的论文提出了 **LPC(Learned Prefix Cache)**,首次将学习机制引入前缀缓存淘汰策略。LPC的核心思路是:通过分析对话内容,预测当前会话是否可能继续,从而指导缓存淘汰决策。与纯LRU相比,LPC在三个真实数据集上实现了**18-47%**的缓存空间缩减,或等效条件下**11%**的预填充吞吐量提升。 有趣的是,这一方向在实际系统层面也在快速落地。有人在Lambda Labs GH200(NVIDIA Grace Hopper Superchip,480GB LPDDR5X + 96GB HBM3e,NVLink-C2C 900GB/s)上部署了 llm-d v0.4.0 + vLLM,并使用EPP(Exact Prefix Propagation)前缀缓存路由进行实测。结果显示,在Qwen3-0.6B小模型上,EPP路由实现了**81.1%的KV缓存命中率**,TTFT(首批Token生成时间)中位数仅为15ms。 为什么GH200特别适合这种场景?传统PCIe连接GPU(A100/H100)上,CPU与GPU之间带宽仅128GB/s,KV缓存溢出到CPU DRAM会造成31倍的带宽损失,实际上不可用。但在GH200上,Grace CPU的480GB LPDDR5X通过NVLink-C2C以900GB/s与Hopper GPU互联,统一地址空间的设计使CPU内存成为KV缓存层级存储的可行选项——热块驻留HBM,温块存LPDDR5X,冷块逐出。llm-d的KV分层卸载架构恰好与GH200硬件特性完美对应。 本质上,EPP解决的是让缓存预热真正有效的问题。在多租户场景下,不同用户的对话前缀有大量共享系统指令和few-shot示例,LRU对这种跨会话共享模式视而不见,而EPP通过Exact Prefix Propagation确保相同前缀只计算一次。 LLM推理的本质是内存调度问题,而非计算问题。当行业还在争论H100数量和batch size时,真正降低推理成本的杠杆在于减少不必要的预填充重计算——EPP和LPC代表的方向,正在将这个理念工程化落地。