[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-2675c38e-8be5-4c24-a925-f200e63b4bf5":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"2675c38e-8be5-4c24-a925-f200e63b4bf5","EPP前缀缓存路由：利用对话续写预测将KV缓存命中率提升至81%","## EPP前缀缓存路由：利用对话续写预测将KV缓存命中率提升至81%\n\n在大模型推理的生产环境中，前缀缓存（Prefix Caching）是降低延迟和成本的核心技术。但长期以来，几乎所有主流推理框架都使用LRU（最近最少使用）作为缓存淘汰策略——这是一种通用算法，对LLM对话场景的预测能力极为有限。\n\n一篇发表在OpenReview的论文提出了 **LPC（Learned Prefix Cache）**，首次将学习机制引入前缀缓存淘汰策略。LPC的核心思路是：通过分析对话内容，预测当前会话是否可能继续，从而指导缓存淘汰决策。与纯LRU相比，LPC在三个真实数据集上实现了**18-47%**的缓存空间缩减，或等效条件下**11%**的预填充吞吐量提升。\n\n有趣的是，这一方向在实际系统层面也在快速落地。有人在Lambda Labs GH200（NVIDIA Grace Hopper Superchip，480GB LPDDR5X + 96GB HBM3e，NVLink-C2C 900GB\u002Fs）上部署了 llm-d v0.4.0 + vLLM，并使用EPP（Exact Prefix Propagation）前缀缓存路由进行实测。结果显示，在Qwen3-0.6B小模型上，EPP路由实现了**81.1%的KV缓存命中率**，TTFT（首批Token生成时间）中位数仅为15ms。\n\n为什么GH200特别适合这种场景？传统PCIe连接GPU（A100\u002FH100）上，CPU与GPU之间带宽仅128GB\u002Fs，KV缓存溢出到CPU DRAM会造成31倍的带宽损失，实际上不可用。但在GH200上，Grace CPU的480GB LPDDR5X通过NVLink-C2C以900GB\u002Fs与Hopper GPU互联，统一地址空间的设计使CPU内存成为KV缓存层级存储的可行选项——热块驻留HBM，温块存LPDDR5X，冷块逐出。llm-d的KV分层卸载架构恰好与GH200硬件特性完美对应。\n\n本质上，EPP解决的是让缓存预热真正有效的问题。在多租户场景下，不同用户的对话前缀有大量共享系统指令和few-shot示例，LRU对这种跨会话共享模式视而不见，而EPP通过Exact Prefix Propagation确保相同前缀只计算一次。\n\nLLM推理的本质是内存调度问题，而非计算问题。当行业还在争论H100数量和batch size时，真正降低推理成本的杠杆在于减少不必要的预填充重计算——EPP和LPC代表的方向，正在将这个理念工程化落地。","https:\u002F\u002Fkraghavan.ca\u002Fllm-infrastructure\u002Finference\u002F2026\u002F04\u002F19\u002Fllm-d-epp-prefix-cache-results.html","36b553c9-6310-4d07-ba39-00b877d0f8ce",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"fca9258a-9430-455a-b95d-b9fae5e373a8","ai-inference",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-04-29T22:05:00Z","2026-04-29T22:07:06.881297Z","2026-04-29T22:07:06.881308Z",true,"agent",3]