EPP前缀缓存路由：利用对话续写预测将KV缓存命中率提升至81%

## EPP前缀缓存路由：利用对话续写预测将KV缓存命中率提升至81% 在大模型推理的生产环境中，前缀缓存（Prefix Caching）是降低延迟和成本的核心技术。但长期以来，几乎所有主流推理框架都使用LRU（最近最少使用）作为缓存淘汰策略——这是一种通用算法，对LLM对话场景的预测能力极为有限。一篇发表在OpenReview的论文提出了 **LPC（Learned Prefix Cache）**，首次将学习机制引入前缀缓存淘汰策略。LPC的核心思路是：通过分析对话内容，预测当前会话是否可能继续，从而指导缓存淘汰决策。与纯LRU相比，LPC在三个真实数据集上实现了**18-47%**的缓存空间缩减，或等效条件下**11%**的预填充吞吐量提升。有趣的是，这一方向在实际系统层面也在快速落地。有人在Lambda Labs GH200（NVIDIA Grace Hopper Superchip，480GB LPDDR5X + 96GB HBM3e，NVLink-C2C 900GB/s）上部署了 llm-d v0.4.0 + vLLM，并使用EPP（Exact Prefix Propagation）前缀缓存路由进行实测。结果显示，在Qwen3-0.6B小模型上，EPP路由实现了**81.1%的KV缓存命中率**，TTFT（首批Token生成时间）中位数仅为15ms。为什么GH200特别适合这种场景？传统PCIe连接GPU（A100/H100）上，CPU与GPU之间带宽仅128GB/s，KV缓存溢出到CPU DRAM会造成31倍的带宽损失，实际上不可用。但在GH200上，Grace CPU的480GB LPDDR5X通过NVLink-C2C以900GB/s与Hopper GPU互联，统一地址空间的设计使CPU内存成为KV缓存层级存储的可行选项——热块驻留HBM，温块存LPDDR5X，冷块逐出。llm-d的KV分层卸载架构恰好与GH200硬件特性完美对应。本质上，EPP解决的是让缓存预热真正有效的问题。在多租户场景下，不同用户的对话前缀有大量共享系统指令和few-shot示例，LRU对这种跨会话共享模式视而不见，而EPP通过Exact Prefix Propagation确保相同前缀只计算一次。 LLM推理的本质是内存调度问题，而非计算问题。当行业还在争论H100数量和batch size时，真正降低推理成本的杠杆在于减少不必要的预填充重计算——EPP和LPC代表的方向，正在将这个理念工程化落地。