InfoKV 把 KV 缓存压缩推过「只看注意力」的临界点:用信息熵帮推理模型跑得更长

InfoKV (arXiv 2606.26875) 用信息熵替代纯注意力评分,把 KV 缓存压缩推过「近距影响」临界点:针对 DeepSeek-R1 等长链推理模型,把 token 级预测不确定性与层级表征演化融合成熵分数;Llama-3.1/3.2 与 DeepSeek-R1 上不重训、即插即用地超过现有方法。