VeriCache：化解LLM推理精度与速度之争，有损KV Cache实现4倍吞吐提升

大模型上下文窗口突破百万 token，KV Cache 内存压力随之暴增。有损压缩技术（如 token 丢弃、量化）虽然能将内存占用压缩 2–5 倍，却面临一个根本性矛盾：随着解码 token 增多，有损 KV Cache 的输出会逐渐偏离完整 KV Cache 的结果，在代码生成、工具调用等长序列任务上造成灾难性错误。这意味着精度和速度成了鱼与熊掌。 VeriCache（arXiv 2605.17613）另辟蹊径。它不追求更精准的压缩算法，而是把已被压缩的 KV Cache 作为投机解码的「草稿」，再用完整 KV Cache 验证草稿的正确性。技术核心有两个洞察：第一，压缩 KV 解码受 HBM 带宽约束，而完整 KV 交换受 PCIe/网络约束，两者天然可以并行执行；第二，压缩 KV Cache 的输出与完整 KV Cache 高度相似，允许投机更长的 token 序列，从而分摊每次完整 KV 交换的成本。完整 KV Cache 全程保存在 GPU 内存之外，只在验证时才调入，兼顾了内存效率与输出精度。 VeriCache 兼容 token 丢弃、量化等多种压缩算法，支持长上下文解码和远程前缀缓存场景，还可与传统投机解码叠加使用。实验数据显示，它在代码生成、工具调用等任务上实现最高 4 倍吞吐量的提升，同时输出与完整 KV Cache 完全一致。这一工作的意义不在于又一个压缩技巧，而在于重新定义了问题本身：从「如何压得更准」变成「有损压缩的误差如何补偿」。通过验证机制，VeriCache 把精度与速度这对冤家终于绑在了一起。对于需要持续扩展上下文的应用——代码库级代码生成、长期记忆 Agent、多文档推理——这才是真正值得期待的方向。