Kara:把 KV 缓存压成「滑动窗口」,让推理 LLM 在高并发下不再卡顿

每条 token 都把 K/V 缓存塞进 HBM,推理 LLM 的「长 CoT + 高并发」组合是 KV 缓存压缩研究的真正试炼场。卡内基梅隆的 Han Shen 与 Yuyang Wu 提出的 Kara(arXiv:2607.01237),从「窗口边界」和「保留粒度」两个老问题入手,给出了目前最干净的一组解。 Kara 的核心是只压缩最近生成的上下文窗口——这避开了 SnapKV/AdaKV 类「阈值触发 + 全窗口重打分」带来的反复压缩开销;更重要的是,Kara 用双向注意力而不是单向往回看的 query 来打分 KV 对,让保留候选能跨越前后位置,不再被前缀位置主导。然后 Token2Chunk 模块把候选离散 KV 对再扩展成「任意长度的连续 chunk」,既保留离散关键 token 的指向性,又保留 chunk 的语义连续性——这恰好补上了 ChunkKV 「刚性边界」那块短板。在 PagedAttention 上落地的 KvLLM 框架,设计了周期触发策略而非阈值触发,直接避开了「压缩开销反而压低吞吐」的并发-吞吐反转问题。Qwen3-4B/14B 与 DeepSeek-R1-Distill-Llama-8B 上的实验显示,Kara 在 MATH-500、AIME24、AMC23 上以 30% 保留率几乎保持无压缩精度,NIAH 上的检索表现也明显优于 ChunkKV 与 AdaKV。观点:Kara 的双向打分 + 灵活 chunk 组合,本质上是把「KV 保留」从一维排序问题升级成二维布局问题。这种升级让 7B/14B 量级推理模型在 8×H100/H200 上跑高并发业务时,首次具备了「压缩不掉精度、吞吐还能涨」的可能。对部署方而言,KvLLM 的周期触发策略比 SnapKV 类阈值触发更适合长 CoT 推理服务——这条路线值得跟进,但工程化落地仍要看 PagedAttention 跨节点时的同步开销是否被周期触发掩盖。