2-bit 量化翻车实录：Qwen3 推理模型的失败模式与「FP16 规划+循环救援」修复

【核心思路】brain-lab-research 团队在 arXiv 2606.02011 中，把 Qwen3 系列推理模型压到 2-bit 后，端到端速度反而可能变慢。症结不在精度损失，而在生成过程本身的不稳定：token 数会异常膨胀，抵消单 token 解码成本下降带来的优势。【失败模式】作者把诊断前移，从「答案对不对」升级到「生成过程是否健康」，系统识别出四类过程级失败——重复循环、预算耗尽、承诺延迟、推理段未闭合。这些过程级问题比单纯的精度退化更直接地拉低 MATH-500 等推理基准的得分。【修复机制】作者提出两种轻量控制：FP16 Planning 让 2-bit 模型先用 FP16 生成高精度推理提纲，锁定关键节点后再切回 2-bit 续写；Loop Rescue 实时检测重复轨迹，要么提前 commit 到更早答案，要么回退 FP16 重生成。两者叠加后，Qwen3-8B 在 MATH-500 准确率从 17.2% 拉回 74.2%，Qwen3-32B 从 65.0% 升至 87.2%，且仍保留 2-bit 推理的实际端到端加速。【观点】这项工作的方法论价值远超精度恢复本身——它把低比特推理从静态压缩重新定义为对生成过程病理的可控治疗。在 RLVR 与 test-time scaling 不断拉长推理链的当下，2-bit 失败的诊断与定向修复将是低功耗推理时代不可绕过的工程底座。【出处】arXiv: 2606.02011（2026-06-01）；代码：github.com/brain-lab-research/quantized-reasoning