UltraQuant 把 KV Cache 压到 4-bit：Agentic 长上下文推理首次跑出 3.47× TTFT 加速

当 ChatGPT、Claude 这样的 Agent 产品处理"百万 token 上下文 + 多轮对话"时,瓶颈早已不在模型权重,而在 KV Cache 的内存和带宽。AMD Research 团队本周在 arXiv 公开的 **UltraQuant: 4-bit KV Caching for Context-Heavy Agents** (2606.20474),把 KV Cache 从 FP8 压到 4-bit,并在自家 CDNA4 GPU 上跑出 **P50 TTFT 3.47× 加速**(cache 受压后段轮次)、**全轮次 2.3× 加速**、**吞吐量 1.63× 提升**(对比 vLLM FP8 KV baseline)。 ### 4-bit KV 之前没人做,不是没人想,而是质量不稳 KV Cache 与权重不同——它直接参与 attention 矩阵计算,任何数值偏差都会被 Q·K^T 放大到 logits,导致复读、主题漂移、甚至前文忘光。UltraQuant 的三招做法把这条路径做稳:**非对称 K/V 处理**——V 用旋转 + 4-bit 量化,K 走单独低比特路径,避免统一量化把 Key 判别性信息磨平;**Walsh-Hadamard 旋转 + QJL removal** 把异常值均匀化到整段张量,这是 KV 4-bit 失真的主要来源;**UE8M0 group scale + block-scale variants** 匹配硬件原生缩放格式。最终走 **FP8 queries × FP4 KV × UE8M0 group scales** 混合路径,并利用 **CDNA4 原生 scaled-MFMA** 指令做 decode-attention kernel——这条路径在 NVIDIA GPU 上需要额外 PTX 内联实现,在 AMD 上则是 ISA 级原生。 ### Agentic 推理的隐形税,终于有人交了之前大多数 KV cache 压缩论文(VeriCache、CacheTune、Parallel-Synthesis)聚焦在**单轮长 prompt** 场景。真到了 multi-turn agent 场景——长前缀被多轮复用、并发用户争抢 cache 槽位——缓存压力从"线性"变成"指数级"放大,P99 延迟往往比 P50 差 5-10×。UltraQuant 把评测框架拉到 multi-round agentic workload,首次把"质量、cache 驻留、吞吐"三者放在一起度量,这是更接近生产部署的视角。 ### AMD 第一次在 LLM inference 主场正面亮相这篇论文没有 NVIDIA 协作者,7 位作者全部来自 AMD Research(Thiago Crepaldi、Ashish Sirasao 都是 AMD ML 编译器老兵),核心价值也是把 CDNA4 (MI300/MI325) 的 FP4 路径从"权重"延伸到"KV Cache"。如果 MI400/MI450 继续把 FP4 列为头等公民,AMD 在 LLM serving 市场就有了一条不同于 Blackwell 的差异化叙事——"FP4 everywhere"。一句话:UltraQuant 不是又一个"压比特"的工作,它把 KV Cache 4-bit 化从"能跑"推到"能上线",给 AMD GPU 在 Agent 推理市场找到一张入场券。