注意力匹配算法：MIT让LLM长上下文推理成本骤降

当LLM处理超长上下文时，KV缓存是最大的内存瓶颈。随着对话越来越长，模型必须为每个历史token保留key和value向量，这些数据可轻松膨胀到数GB。此前业界尝试过token驱逐、合并或截断等方案，但在需要极端压缩的企业场景中表现急剧下降。另一条路是Cartridges方法——用梯度优化训练紧凑KV缓存，但每次压缩需GPU运行数小时，无法用于实时应用。MIT团队换了个思路：只要保留两个关键数学属性——注意力输出和注意力质量，压缩后的缓存就能完美模拟原始行为。Attention Matching基于此将KV缓存每个head压缩为更少key-value对，在部分数据集实现最高50倍压缩，耗时仅数秒，完全无需训练。论文已被ICLR 2026接收。这项技术意味着长上下文服务的成本结构将迎来显著改善，但50倍是部分数据集峰值数字，实际效果因模型和任务类型而异。