MosaicKV:把 KV 缓存压成「马赛克」,长上下文推理跑出 16× 注意力加速

把 KV Cache 当瓶颈来压,是百万级上下文 LLM 服务的标准动作。但多数工作只在序列或通道单轴压缩——再多压,精度就断崖式下滑。\n\n7 月 1 日挂上 arXiv 的 MosaicKV (2607.00760) 把这件事推到二维:先识别每个 KV 向量里真正重要的位置,把缓存切成多段,对各段施以不同压缩策略,再用闲置 GPU/CPU 维护压缩态,把注意力从压缩缓存里直接算出来。\n\nH800 上结果很硬:attention 加速最多 16×、decode 延迟降 4.8×、吞吐升 7.3×,内存降到 1/3,LongBench/RULER 平均精度只掉 1.76%。\n\n三个值得留意的点:2D 压缩的关键不是"压得更狠",而是承认 KV 内部本就稀疏不均——延续了 STAR-KV、InfoKV 的"软阈值"路线;压缩管理与算力调度捆绑,意味着对框架依赖不轻,落地大概率走 SGLang/vLLM 集成;1.76% 精度换 4–7× 吞吐,百万上下文 Agent 的边际收益正以"长尾任务终于跑得起"兑现。\n\nMosaicKV 不会让"上下文无限长"一夜实现,但把 Agent 时代"长 prompt 跑不动"再往生产推了一步。精度损失压到 1%、吞吐翻 5 倍以上,长上下文 LLM 的服务定价和本地推理能力,都会有一轮悄悄的重排。