Sumi 把 UDLM 从零拉到 7B/1.5T:扩散语言模型终于有了「原生参考点」

扩散语言模型(Diffusion LM)过去两年一直是「下一代 LLM 范式」的热门候选,但 Uniform Diffusion Language Model(UDLM)这条更灵活的技术路线(任意 token 在任意步可被覆盖)至今缺乏从零训练的大规模开源参照系。Google 的 DiffusionGemma 26B-A4B 是从预训练 AR 模型改造而来,Inception Labs 的 Mercury 2 走商业化推理路径,腾讯 WeDLM、EPIC、d3LLM 等则聚焦推理加速——「原生 UDLM」这一定位始终空缺。日本东北大学(Jun Suzuki、Keisuke Sakaguchi 团队)6 月 17 日发布的 Sumi 论文填补了这一空缺。 Sumi 是 7B 参数、1.5T tokens 训练的原生 UDLM,基于 GIDD 框架的 SNR 重参数化版本(连续 log-SNR λ∈[−9,9]),36 层 LLaMA 风格双向 Transformer + OLMo 3 tokenizer(词表 100,278),288 张 H100 跑 43,308 GPU-hours。预训练 1.3T tokens 后接两阶段 mid-training 共 250B tokens,数据全部来自公开语料并完整记录配比。 关键性能:在 MMLU(51.1)、GSM8K(32.8)、HumanEval(22.6)、MBPP(26.6)、TruthfulQA(46.6)、RACE(41.4)上达到或超过同 token 预算的 Llama 2-7B、Falcon-7B、OLMo-7B;但 PIQA(66.4)、HellaSwag(60.0)、WinoGrande(60.0)明显落后,作者归因为教育数据过重——这是已知的 quality filtering 副作用,并非架构问题。 Sumi 真正深层的贡献在 §4 探索性实验,对 UDLM 三条乐观叙事做了冷静的边界测试:(1) 可用 canvas 长度严格受训练长度限制(1184 / 4864),过短生成显著劣化;(2) confidence 采样器自动诱导出 task-shaped 提交顺序,让顺序无关的模型获得结构化能力,并在编程任务上支持 k=4 tokens/step 并行解码(多步算术任务仍敏感);(3) 显式 revision 预算不带来 self-correction:58-100% revision 步会覆盖已提交 token,但净变化 < 1%,多为 A→B→A 往返——简单堆算力换不来自我修正。 对从业者的判断:Sumi 第一次让社区能严肃研究「从零训练的 UDLM 在数据富集区究竟如何」,提供干净的 scaling reference point。但它也明确划出 UDLM 的能力边界——灵活性不是免费午餐,commitment order、canvas 长度、sampler 选择共同决定实际质量。下一阶段关键问题不是「扩散能否替代自回归」,而是「在哪些任务上,UDLM 的灵活性值得放弃 AR 的成熟工程栈」。