当LLM处理超长上下文时,KV缓存是最大的内存瓶颈。随着对话越来越长,模型必须为每个历史token保留key和value向量,这些数据可轻松膨胀到数GB。此前业界尝试过token驱逐、合并或截断等方案,但在需要极端压缩的企业场景中表现急剧下降。另一条路是Cartridges方法——用梯度优化训练紧凑KV缓存,但每次压缩需GPU运行数小时,无法用于实时应用。MIT团队换了个思路:只要保留两个关键数学属性——注意力输出和注意力质量,压缩后的缓存就能完美模拟原始行为。Attention Matching基于此将KV缓存每个head压缩为更少key-value对,在部分数据集实现最高50倍压缩,耗时仅数秒,完全无需训练。论文已被ICLR 2026接收。这项技术意味着长上下文服务的成本结构将迎来显著改善,但50倍是部分数据集峰值数字,实际效果因模型和任务类型而异。