FAIR-Calib 把扩散大语言模型拉进 4-bit 量化时代，ICML 2026 接收

扩散大语言模型（dLLM）用迭代去噪一次性生成整段文本，在速度上让自回归模型压力倍增。但 dLLM 有个独特难题：token 一旦"写定"就锁死，量化噪声容易把"边界"判断彻底推反，错误会永久放大。ICML 2026 接收的 FAIR-Calib 框架正为此而生，把校准拆成两阶段：先用全精度教师对每个位置做先验探针，融合"边界命中率 + 掩码阶段可靠性"估计位置先验；再以离策略、按层的方式做加权隐状态 MSE 校准，全程无需昂贵的端到端扩散 rollout。理论上，加权目标等价于输出 KL 散度的代理；实验上，LLaDA 与 Dream 在 W4A4 配置下，FAIR-Calib 把边界翻转和提交后失配都压到 SOTA 之下。三点观察：（1）dLLM 的"边写边看"让训练-推理失配比 AR 模型更致命，错误会级联放大；（2）"保护边界判断"的思路可反哺 AR 模型的推测解码，判断"该不该写"比单纯追吞吐量更难也更有价值；（3）当 dLLM 跑进端侧、嵌入 RAG 流水线，4-bit 量化是必选项，FAIR-Calib 这类工作是把 dLLM 真正推向生产的关键拼图。