InfoKV 把 KV 缓存压缩推过「只看注意力」的临界点：用信息熵帮推理模型跑得更长

InfoKV (arXiv 2606.26875) 用信息熵替代纯注意力评分，把 KV 缓存压缩推过「近距影响」临界点：针对 DeepSeek-R1 等长链推理模型，把 token 级预测不确定性与层级表征演化融合成熵分数；Llama-3.1/3.2 与 DeepSeek-R1 上不重训、即插即用地超过现有方法。