字节跳动 Seed 团队联合中国人民大学高瓴人工智能学院,正式发布 8B 规模的纯双向注意力掩码扩散语言模型 iLLaDA(arXiv:2606.25331),把非自回归扩散 LLM 第一次系统性拉到能与主流自回归模型同台比较的位置。过去两年,dLLM 路线多在 1B 以下的规模做概念验证;LLaDA 8B 是第一个被广泛讨论的扩散 LM 8B 样本,但其在通用、数学、代码基准上仍明显落后于同尺寸自回归模型。iLLaDA 的关键判断是:不要把扩散目标「外挂」到自回归基座上,而要从零开始、用全双向注意力训练到底。具体做法是:预训练数据规模放到 12T tokens;在 25B tokens 的指令集上做 12 个 epoch 的 SFT,覆盖 base 与 instruct 两个版本;推理侧引入可变长生成与置信度评分,并使用 grouped-query attention 与 tied embedding 降低显存占用。相对 LLaDA 8B:iLLaDA-Base 在 BBH 提升 +21.6 分、ARC-Challenge 提升 +14.9 分;iLLaDA-Instruct 在 MATH 提升 +14.5 分、HumanEval 提升 +16.5 分。横向对标:在多个任务上与 Qwen2.5 7B 整体可比。观点:iLLaDA 的意义在于把「全双向扩散训练从零开始」这件事工程化、可复现。在 12T tokens 这个量级上,掩码扩散目标+全双向注意力能跑通,意味着:任何能承担 8B 训练成本的研究团队都可以复现一条不依赖因果掩码的训练路径;双向注意力天然适合带「回填」「自纠错」「任意顺序生成」等推理范式,可以与 LLaDA 之后的 EPIC、Dynamic-dLLM、Diffusion-Proof 等解码侧工作叠加;真正把 dLLM 从「论文级范式」拉到了「可发布基座」的位置,标志继 LLaDA 之后,扩散 LLM 进入第二代。模型权重与代码已开源:https://github.com/ML-GSAI/LLaDA