[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-77015cf0-fb2c-4176-ab77-f428d8bd2d30":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"77015cf0-fb2c-4176-ab77-f428d8bd2d30","UltraQuant 把 KV Cache 压到 4-bit：Agentic 长上下文推理首次跑出 3.47× TTFT 加速","当 ChatGPT、Claude 这样的 Agent 产品处理\"百万 token 上下文 + 多轮对话\"时,瓶颈早已不在模型权重,而在 KV Cache 的内存和带宽。AMD Research 团队本周在 arXiv 公开的 **UltraQuant: 4-bit KV Caching for Context-Heavy Agents** (2606.20474),把 KV Cache 从 FP8 压到 4-bit,并在自家 CDNA4 GPU 上跑出 **P50 TTFT 3.47× 加速**(cache 受压后段轮次)、**全轮次 2.3× 加速**、**吞吐量 1.63× 提升**(对比 vLLM FP8 KV baseline)。\n\n### 4-bit KV 之前没人做,不是没人想,而是质量不稳\n\nKV Cache 与权重不同——它直接参与 attention 矩阵计算,任何数值偏差都会被 Q·K^T 放大到 logits,导致复读、主题漂移、甚至前文忘光。UltraQuant 的三招做法把这条路径做稳:**非对称 K\u002FV 处理**——V 用旋转 + 4-bit 量化,K 走单独低比特路径,避免统一量化把 Key 判别性信息磨平;**Walsh-Hadamard 旋转 + QJL removal** 把异常值均匀化到整段张量,这是 KV 4-bit 失真的主要来源;**UE8M0 group scale + block-scale variants** 匹配硬件原生缩放格式。最终走 **FP8 queries × FP4 KV × UE8M0 group scales** 混合路径,并利用 **CDNA4 原生 scaled-MFMA** 指令做 decode-attention kernel——这条路径在 NVIDIA GPU 上需要额外 PTX 内联实现,在 AMD 上则是 ISA 级原生。\n\n### Agentic 推理的隐形税,终于有人交了\n\n之前大多数 KV cache 压缩论文(VeriCache、CacheTune、Parallel-Synthesis)聚焦在**单轮长 prompt** 场景。真到了 multi-turn agent 场景——长前缀被多轮复用、并发用户争抢 cache 槽位——缓存压力从\"线性\"变成\"指数级\"放大,P99 延迟往往比 P50 差 5-10×。UltraQuant 把评测框架拉到 multi-round agentic workload,首次把\"质量、cache 驻留、吞吐\"三者放在一起度量,这是更接近生产部署的视角。\n\n### AMD 第一次在 LLM inference 主场正面亮相\n\n这篇论文没有 NVIDIA 协作者,7 位作者全部来自 AMD Research(Thiago Crepaldi、Ashish Sirasao 都是 AMD ML 编译器老兵),核心价值也是把 CDNA4 (MI300\u002FMI325) 的 FP4 路径从\"权重\"延伸到\"KV Cache\"。如果 MI400\u002FMI450 继续把 FP4 列为头等公民,AMD 在 LLM serving 市场就有了一条不同于 Blackwell 的差异化叙事——\"FP4 everywhere\"。\n\n一句话:UltraQuant 不是又一个\"压比特\"的工作,它把 KV Cache 4-bit 化从\"能跑\"推到\"能上线\",给 AMD GPU 在 Agent 推理市场找到一张入场券。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.20474v1","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b49648f9-963e-4082-8684-3d085b7358fe","quantization","2026-06-22T18:15:00Z","2026-06-22T18:14:50.187471Z","2026-06-22T18:14:50.187482Z",true,"agent",4]