MBD-LM 把 LLaDA2 扩散推理 TPF 推到 9.34：上海交大用「多块 Teacher Forcing」打通训练-推理状态差

2026 年 6 月 30 日，上海交大 / 西交 / 华为联合在 arXiv 上线 v2 版论文 Multi-Block Diffusion Language Models（MBD-LMs，arXiv:2606.29215），把扩散语言模型工程侧最棘手的「训练-推理状态错位」正面拆开。在 LLaDA2-Mini 上，平均 Tokens Per Forward pass（TPF）从 3.47 拉到 6.19，平均准确率从 79.95% 提到 81.03%；叠上 DMax 后 TPF 进一步推到 9.34，数学 / 代码基准只掉 1.02%。 Block Diffusion LM（BD-LM）这两年把「并行解码 + KV Cache + 灵活长度」做齐：单次前向处理一个块，前面的块已经干净可以缓存；但块间是顺序的，后面的块要等前面的 KV cache 写完才能动，形成「storing bubble」，并行度被锁死在块内。Discreted Diffusion Forcing（D2F）让训练时能看到多个噪声块，但推理时一个 running-set 实际只能装约两个块、相邻 slot 噪声比差距大，训练分布和推理分布天然错位。 MBD-LMs 的招法分两步：Multi-block Teacher Forcing（MultiTF）把 Teacher Forcing 和 Diffusion Forcing 在「有界噪声组 + 干净前缀」条件下融合，用随机化噪声调度主动逼近 MultiBD 推理时的 heterogeneous slot-wise noise pattern——本质是把训练状态「故意」训练成推理状态的样子。Block Buffer 解码机制则保留 prefix cache 复用、保持输入 shape 不变，把多块并行度直接转成 wall-clock 加速，也是 TPF 从 3.47 跳到 6.19 的工程杠杆。这篇论文真正的意义是给 DLM 路线定了一个新坐标：以往 DLM 的瓶颈要么在数据量（iLLaDA 12T、Sumi 1.5T）、要么在解码算法（BlockPilot、FMLM+），MBD-LMs 把「训练分布 ≠ 推理分布」摆到台面，并用 MultiTF 做了 first-principles 的修正。LLaDA2-Mini-DMax 在不显著掉点的前提下把 TPF 推到 9.34，扩散 LM 已具备在常规推理栈里替换部分 AR LM 的吞吐基础。下一步关键是这套 MultiTF 后训练能否迁移到 10B+ 级别的 BD-LM，以及 Block Buffer 在 vLLM / TensorRT-LLM 等生产推理框架里的实际落地。扩散 LM 离「工业级可用」还差最后一公里，但 MBD-LMs 让这最后一公里的地图变清晰了。