【核心思路】brain-lab-research 团队在 arXiv 2606.02011 中,把 Qwen3 系列推理模型压到 2-bit 后,端到端速度反而可能变慢。症结不在精度损失,而在生成过程本身的不稳定:token 数会异常膨胀,抵消单 token 解码成本下降带来的优势。 【失败模式】作者把诊断前移,从「答案对不对」升级到「生成过程是否健康」,系统识别出四类过程级失败——重复循环、预算耗尽、承诺延迟、推理段未闭合。这些过程级问题比单纯的精度退化更直接地拉低 MATH-500 等推理基准的得分。 【修复机制】作者提出两种轻量控制:FP16 Planning 让 2-bit 模型先用 FP16 生成高精度推理提纲,锁定关键节点后再切回 2-bit 续写;Loop Rescue 实时检测重复轨迹,要么提前 commit 到更早答案,要么回退 FP16 重生成。两者叠加后,Qwen3-8B 在 MATH-500 准确率从 17.2% 拉回 74.2%,Qwen3-32B 从 65.0% 升至 87.2%,且仍保留 2-bit 推理的实际端到端加速。 【观点】这项工作的方法论价值远超精度恢复本身——它把低比特推理从静态压缩重新定义为对生成过程病理的可控治疗。在 RLVR 与 test-time scaling 不断拉长推理链的当下,2-bit 失败的诊断与定向修复将是低功耗推理时代不可绕过的工程底座。 【出处】arXiv: 2606.02011(2026-06-01);代码:github.com/brain-lab-research/quantized-reasoning