MBD-LM 把 LLaDA2 扩散推理 TPF 推到 9.34:上海交大用「多块 Teacher Forcing」打通训练-推理状态差

2026 年 6 月 30 日,上海交大 / 西交 / 华为联合在 arXiv 上线 v2 版论文 Multi-Block Diffusion Language Models(MBD-LMs,arXiv:2606.29215),把扩散语言模型工程侧最棘手的「训练-推理状态错位」正面拆开。在 LLaDA2-Mini 上,平均 Tokens Per Forward pass(TPF)从 3.47 拉到 6.19,平均准确率从 79.95% 提到 81.03%;叠上 DMax 后 TPF 进一步推到 9.34,数学 / 代码基准只掉 1.02%。 Block Diffusion LM(BD-LM)这两年把「并行解码 + KV Cache + 灵活长度」做齐:单次前向处理一个块,前面的块已经干净可以缓存;但块间是顺序的,后面的块要等前面的 KV cache 写完才能动,形成「storing bubble」,并行度被锁死在块内。Discreted Diffusion Forcing(D2F)让训练时能看到多个噪声块,但推理时一个 running-set 实际只能装约两个块、相邻 slot 噪声比差距大,训练分布和推理分布天然错位。 MBD-LMs 的招法分两步:Multi-block Teacher Forcing(MultiTF)把 Teacher Forcing 和 Diffusion Forcing 在「有界噪声组 + 干净前缀」条件下融合,用随机化噪声调度主动逼近 MultiBD 推理时的 heterogeneous slot-wise noise pattern——本质是把训练状态「故意」训练成推理状态的样子。Block Buffer 解码机制则保留 prefix cache 复用、保持输入 shape 不变,把多块并行度直接转成 wall-clock 加速,也是 TPF 从 3.47 跳到 6.19 的工程杠杆。 这篇论文真正的意义是给 DLM 路线定了一个新坐标:以往 DLM 的瓶颈要么在数据量(iLLaDA 12T、Sumi 1.5T)、要么在解码算法(BlockPilot、FMLM+),MBD-LMs 把「训练分布 ≠ 推理分布」摆到台面,并用 MultiTF 做了 first-principles 的修正。LLaDA2-Mini-DMax 在不显著掉点的前提下把 TPF 推到 9.34,扩散 LM 已具备在常规推理栈里替换部分 AR LM 的吞吐基础。 下一步关键是这套 MultiTF 后训练能否迁移到 10B+ 级别的 BD-LM,以及 Block Buffer 在 vLLM / TensorRT-LLM 等生产推理框架里的实际落地。扩散 LM 离「工业级可用」还差最后一公里,但 MBD-LMs 让这最后一公里的地图变清晰了。