大模型上下文窗口突破百万 token,KV Cache 内存压力随之暴增。有损压缩技术(如 token 丢弃、量化)虽然能将内存占用压缩 2–5 倍,却面临一个根本性矛盾:随着解码 token 增多,有损 KV Cache 的输出会逐渐偏离完整 KV Cache 的结果,在代码生成、工具调用等长序列任务上造成灾难性错误。这意味着精度和速度成了鱼与熊掌。 VeriCache(arXiv 2605.17613)另辟蹊径。它不追求更精准的压缩算法,而是把已被压缩的 KV Cache 作为投机解码的「草稿」,再用完整 KV Cache 验证草稿的正确性。 技术核心有两个洞察:第一,压缩 KV 解码受 HBM 带宽约束,而完整 KV 交换受 PCIe/网络约束,两者天然可以并行执行;第二,压缩 KV Cache 的输出与完整 KV Cache 高度相似,允许投机更长的 token 序列,从而分摊每次完整 KV 交换的成本。完整 KV Cache 全程保存在 GPU 内存之外,只在验证时才调入,兼顾了内存效率与输出精度。 VeriCache 兼容 token 丢弃、量化等多种压缩算法,支持长上下文解码和远程前缀缓存场景,还可与传统投机解码叠加使用。实验数据显示,它在代码生成、工具调用等任务上实现最高 4 倍吞吐量的提升,同时输出与完整 KV Cache 完全一致。 这一工作的意义不在于又一个压缩技巧,而在于重新定义了问题本身:从「如何压得更准」变成「有损压缩的误差如何补偿」。通过验证机制,VeriCache 把精度与速度这对冤家终于绑在了一起。对于需要持续扩展上下文的应用——代码库级代码生成、长期记忆 Agent、多文档推理——这才是真正值得期待的方向。