大模型的长链推理正在撞上一堵看不见的墙——KV Cache。当模型为一道复杂数学题生成数万个token时,所有历史键值对都必须驻留在显存里,显存压力随推理长度线性增长,最终把GPU逼到内存耗尽的边缘。 MIT、NVIDIA和浙江大学的研究者近日联合提出了TriAttention,一种在AIME25数学推理基准上实现全注意力精度、同时达成2.5倍吞吐或10.7倍KV内存压缩的KV Cache压缩方法。相关论文已挂arXiv(编号2604.04921)。 为什么旧方法失效了 现有主流KV Cache压缩方法——SnapKV、H2O、R-KV——都工作在Post-RoPE空间,即在Rotary Position Embedding旋转之后评估token重要性。问题在于:RoPE以位置相关的方式旋转Q/K向量,位置越远旋转角度越大。用更直白的话说,这些方法只能看到最近约25个查询的注意力分布,对于需要跨越数千token检索信息的检索头完全失效——相关token在休眠期因为注意力分数低被永久驱逐,模型需要时已经找不到了。 预RoPE洞察:三路注意力协同 TriAttention的核心洞察来自对RoPE旋转前向量空间的观察。在Pre-RoPE空间,Q/K的方向不再受位置编码干扰,语义相似的查询天然聚集在一起,这使得重要性估计可以跨更长窗口进行。 TriAttention将压缩问题分解为三个维度:Query-Key一致性(在Pre-RoPE空间评估哪些K值得保留)、Key-Context重要性(评估每个K对完整上下文的语义贡献)和Head-specific动态权重(不同注意力头有截然不同的压缩容忍度),三路协同后选择需要保留的KV条目。 实验结果显示,在32K token生成的AIME25基准上,TriAttention与全注意力精度持平,而同期基线方法在同等效率下精度损失约50%。 这意味着什么 技术层面,TriAttention证明了一个关键假设:KV Cache压缩不只是丢什么的问题,更是在哪个空间做决策的问题。Pre-RoPE空间的语义聚合让重要性估计更稳定,这是对现有方法范式的根本性挑战。 工程层面,2.5倍吞吐提升对于需要部署长上下文模型的团队是真实收益,尤其在消费级GPU场景。如果10.7倍内存压缩可信赖,RTX 4090运行128K上下文不再是天方夜谭。当然,这套方法需要多少额外计算开销?融合到vLLM或SGLang这样的推理框架需要多久?论文没有给答案,但这些才是决定它能否走出实验室的关键。 长链推理的内存墙问题,2026年看起来终于有了松动迹象。