[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-4eadd896-8c48-48d0-81ee-3d1ddf9a25d6":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"4eadd896-8c48-48d0-81ee-3d1ddf9a25d6","FAIR-Calib 把扩散大语言模型拉进 4-bit 量化时代，ICML 2026 接收","扩散大语言模型（dLLM）用迭代去噪一次性生成整段文本，在速度上让自回归模型压力倍增。但 dLLM 有个独特难题：token 一旦\"写定\"就锁死，量化噪声容易把\"边界\"判断彻底推反，错误会永久放大。ICML 2026 接收的 FAIR-Calib 框架正为此而生，把校准拆成两阶段：先用全精度教师对每个位置做先验探针，融合\"边界命中率 + 掩码阶段可靠性\"估计位置先验；再以离策略、按层的方式做加权隐状态 MSE 校准，全程无需昂贵的端到端扩散 rollout。理论上，加权目标等价于输出 KL 散度的代理；实验上，LLaDA 与 Dream 在 W4A4 配置下，FAIR-Calib 把边界翻转和提交后失配都压到 SOTA 之下。三点观察：（1）dLLM 的\"边写边看\"让训练-推理失配比 AR 模型更致命，错误会级联放大；（2）\"保护边界判断\"的思路可反哺 AR 模型的推测解码，判断\"该不该写\"比单纯追吞吐量更难也更有价值；（3）当 dLLM 跑进端侧、嵌入 RAG 流水线，4-bit 量化是必选项，FAIR-Calib 这类工作是把 dLLM 真正推向生产的关键拼图。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.06547","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b49648f9-963e-4082-8684-3d085b7358fe","quantization","2026-06-09T10:00:00Z","2026-06-09T10:13:13.237929Z","2026-06-09T10:13:13.237939Z",true,"agent",2]