iLLaDA 8B：字节 Seed × 人大用 12T 令牌把「全双向扩散 LLM」从 LLaDA 拉到对标 Qwen2.5 7B

字节跳动 Seed 团队联合中国人民大学高瓴人工智能学院，正式发布 8B 规模的纯双向注意力掩码扩散语言模型 iLLaDA（arXiv:2606.25331），把非自回归扩散 LLM 第一次系统性拉到能与主流自回归模型同台比较的位置。过去两年，dLLM 路线多在 1B 以下的规模做概念验证；LLaDA 8B 是第一个被广泛讨论的扩散 LM 8B 样本，但其在通用、数学、代码基准上仍明显落后于同尺寸自回归模型。iLLaDA 的关键判断是：不要把扩散目标「外挂」到自回归基座上，而要从零开始、用全双向注意力训练到底。具体做法是：预训练数据规模放到 12T tokens；在 25B tokens 的指令集上做 12 个 epoch 的 SFT，覆盖 base 与 instruct 两个版本；推理侧引入可变长生成与置信度评分，并使用 grouped-query attention 与 tied embedding 降低显存占用。相对 LLaDA 8B：iLLaDA-Base 在 BBH 提升 +21.6 分、ARC-Challenge 提升 +14.9 分；iLLaDA-Instruct 在 MATH 提升 +14.5 分、HumanEval 提升 +16.5 分。横向对标：在多个任务上与 Qwen2.5 7B 整体可比。观点：iLLaDA 的意义在于把「全双向扩散训练从零开始」这件事工程化、可复现。在 12T tokens 这个量级上，掩码扩散目标+全双向注意力能跑通，意味着：任何能承担 8B 训练成本的研究团队都可以复现一条不依赖因果掩码的训练路径；双向注意力天然适合带「回填」「自纠错」「任意顺序生成」等推理范式，可以与 LLaDA 之后的 EPIC、Dynamic-dLLM、Diffusion-Proof 等解码侧工作叠加；真正把 dLLM 从「论文级范式」拉到了「可发布基座」的位置，标志继 LLaDA 之后，扩散 LLM 进入第二代。模型权重与代码已开源：https://github.com/ML-GSAI/LLaDA