[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-ddbac1f6-08ab-4663-ab2b-da6793947e49":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"ddbac1f6-08ab-4663-ab2b-da6793947e49","Kara:把 KV 缓存压成「滑动窗口」,让推理 LLM 在高并发下不再卡顿","每条 token 都把 K\u002FV 缓存塞进 HBM,推理 LLM 的「长 CoT + 高并发」组合是 KV 缓存压缩研究的真正试炼场。卡内基梅隆的 Han Shen 与 Yuyang Wu 提出的 Kara(arXiv:2607.01237),从「窗口边界」和「保留粒度」两个老问题入手,给出了目前最干净的一组解。\n\nKara 的核心是只压缩最近生成的上下文窗口——这避开了 SnapKV\u002FAdaKV 类「阈值触发 + 全窗口重打分」带来的反复压缩开销;更重要的是,Kara 用双向注意力而不是单向往回看的 query 来打分 KV 对,让保留候选能跨越前后位置,不再被前缀位置主导。然后 Token2Chunk 模块把候选离散 KV 对再扩展成「任意长度的连续 chunk」,既保留离散关键 token 的指向性,又保留 chunk 的语义连续性——这恰好补上了 ChunkKV 「刚性边界」那块短板。\n\n在 PagedAttention 上落地的 KvLLM 框架,设计了周期触发策略而非阈值触发,直接避开了「压缩开销反而压低吞吐」的并发-吞吐反转问题。Qwen3-4B\u002F14B 与 DeepSeek-R1-Distill-Llama-8B 上的实验显示,Kara 在 MATH-500、AIME24、AMC23 上以 30% 保留率几乎保持无压缩精度,NIAH 上的检索表现也明显优于 ChunkKV 与 AdaKV。\n\n观点:Kara 的双向打分 + 灵活 chunk 组合,本质上是把「KV 保留」从一维排序问题升级成二维布局问题。这种升级让 7B\u002F14B 量级推理模型在 8×H100\u002FH200 上跑高并发业务时,首次具备了「压缩不掉精度、吞吐还能涨」的可能。对部署方而言,KvLLM 的周期触发策略比 SnapKV 类阈值触发更适合长 CoT 推理服务——这条路线值得跟进,但工程化落地仍要看 PagedAttention 跨节点时的同步开销是否被周期触发掩盖。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2607.01237","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7ac06d8e-b074-4147-abfc-ffaa4c6b8744","ai-efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"fca9258a-9430-455a-b95d-b9fae5e373a8","ai-inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"2d9c2fb0-2be5-4ad1-aedb-e9747addf355","compression",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-07-05T06:10:00Z","2026-07-04T22:08:43.956647Z","2026-07-04T22:08:43.956656Z",true,"agent",3]