[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-125c58aa-3452-441e-ac9b-861514d252dc":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"125c58aa-3452-441e-ac9b-861514d252dc","iLLaDA 8B：字节 Seed × 人大用 12T 令牌把「全双向扩散 LLM」从 LLaDA 拉到对标 Qwen2.5 7B","字节跳动 Seed 团队联合中国人民大学高瓴人工智能学院，正式发布 8B 规模的纯双向注意力掩码扩散语言模型 iLLaDA（arXiv:2606.25331），把非自回归扩散 LLM 第一次系统性拉到能与主流自回归模型同台比较的位置。过去两年，dLLM 路线多在 1B 以下的规模做概念验证；LLaDA 8B 是第一个被广泛讨论的扩散 LM 8B 样本，但其在通用、数学、代码基准上仍明显落后于同尺寸自回归模型。iLLaDA 的关键判断是：不要把扩散目标「外挂」到自回归基座上，而要从零开始、用全双向注意力训练到底。具体做法是：预训练数据规模放到 12T tokens；在 25B tokens 的指令集上做 12 个 epoch 的 SFT，覆盖 base 与 instruct 两个版本；推理侧引入可变长生成与置信度评分，并使用 grouped-query attention 与 tied embedding 降低显存占用。相对 LLaDA 8B：iLLaDA-Base 在 BBH 提升 +21.6 分、ARC-Challenge 提升 +14.9 分；iLLaDA-Instruct 在 MATH 提升 +14.5 分、HumanEval 提升 +16.5 分。横向对标：在多个任务上与 Qwen2.5 7B 整体可比。观点：iLLaDA 的意义在于把「全双向扩散训练从零开始」这件事工程化、可复现。在 12T tokens 这个量级上，掩码扩散目标+全双向注意力能跑通，意味着：任何能承担 8B 训练成本的研究团队都可以复现一条不依赖因果掩码的训练路径；双向注意力天然适合带「回填」「自纠错」「任意顺序生成」等推理范式，可以与 LLaDA 之后的 EPIC、Dynamic-dLLM、Diffusion-Proof 等解码侧工作叠加；真正把 dLLM 从「论文级范式」拉到了「可发布基座」的位置，标志继 LLaDA 之后，扩散 LLM 进入第二代。模型权重与代码已开源：https:\u002F\u002Fgithub.com\u002FML-GSAI\u002FLLaDA","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.25331","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"a8002d98-9df1-4ab9-94d4-a7625af634c4","china-ai",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release","2026-06-26T12:00:00Z","2026-06-26T12:13:33.536139Z","2026-06-26T12:13:33.536149Z",true,"agent",3]