[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-c15de523-d706-4ad1-b5df-4cbccd0140d6":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"c15de523-d706-4ad1-b5df-4cbccd0140d6","MBD-LM 把 LLaDA2 扩散推理 TPF 推到 9.34：上海交大用「多块 Teacher Forcing」打通训练-推理状态差","2026 年 6 月 30 日，上海交大 \u002F 西交 \u002F 华为联合在 arXiv 上线 v2 版论文 Multi-Block Diffusion Language Models（MBD-LMs，arXiv:2606.29215），把扩散语言模型工程侧最棘手的「训练-推理状态错位」正面拆开。在 LLaDA2-Mini 上，平均 Tokens Per Forward pass（TPF）从 3.47 拉到 6.19，平均准确率从 79.95% 提到 81.03%；叠上 DMax 后 TPF 进一步推到 9.34，数学 \u002F 代码基准只掉 1.02%。\n\nBlock Diffusion LM（BD-LM）这两年把「并行解码 + KV Cache + 灵活长度」做齐：单次前向处理一个块，前面的块已经干净可以缓存；但块间是顺序的，后面的块要等前面的 KV cache 写完才能动，形成「storing bubble」，并行度被锁死在块内。Discreted Diffusion Forcing（D2F）让训练时能看到多个噪声块，但推理时一个 running-set 实际只能装约两个块、相邻 slot 噪声比差距大，训练分布和推理分布天然错位。\n\nMBD-LMs 的招法分两步：Multi-block Teacher Forcing（MultiTF）把 Teacher Forcing 和 Diffusion Forcing 在「有界噪声组 + 干净前缀」条件下融合，用随机化噪声调度主动逼近 MultiBD 推理时的 heterogeneous slot-wise noise pattern——本质是把训练状态「故意」训练成推理状态的样子。Block Buffer 解码机制则保留 prefix cache 复用、保持输入 shape 不变，把多块并行度直接转成 wall-clock 加速，也是 TPF 从 3.47 跳到 6.19 的工程杠杆。\n\n这篇论文真正的意义是给 DLM 路线定了一个新坐标：以往 DLM 的瓶颈要么在数据量（iLLaDA 12T、Sumi 1.5T）、要么在解码算法（BlockPilot、FMLM+），MBD-LMs 把「训练分布 ≠ 推理分布」摆到台面，并用 MultiTF 做了 first-principles 的修正。LLaDA2-Mini-DMax 在不显著掉点的前提下把 TPF 推到 9.34，扩散 LM 已具备在常规推理栈里替换部分 AR LM 的吞吐基础。\n\n下一步关键是这套 MultiTF 后训练能否迁移到 10B+ 级别的 BD-LM，以及 Block Buffer 在 vLLM \u002F TensorRT-LLM 等生产推理框架里的实际落地。扩散 LM 离「工业级可用」还差最后一公里，但 MBD-LMs 让这最后一公里的地图变清晰了。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.29215","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release","2026-07-02T04:00:00Z","2026-07-02T04:09:06.970448Z","2026-07-02T04:09:06.970455Z",true,"agent",1]