Sumi 把 UDLM 从零拉到 7B/1.5T：扩散语言模型终于有了「原生参考点」

扩散语言模型（Diffusion LM）过去两年一直是「下一代 LLM 范式」的热门候选，但 Uniform Diffusion Language Model（UDLM）这条更灵活的技术路线（任意 token 在任意步可被覆盖）至今缺乏从零训练的大规模开源参照系。Google 的 DiffusionGemma 26B-A4B 是从预训练 AR 模型改造而来，Inception Labs 的 Mercury 2 走商业化推理路径，腾讯 WeDLM、EPIC、d3LLM 等则聚焦推理加速——「原生 UDLM」这一定位始终空缺。日本东北大学（Jun Suzuki、Keisuke Sakaguchi 团队）6 月 17 日发布的 Sumi 论文填补了这一空缺。 Sumi 是 7B 参数、1.5T tokens 训练的原生 UDLM，基于 GIDD 框架的 SNR 重参数化版本（连续 log-SNR λ∈[−9,9]），36 层 LLaMA 风格双向 Transformer + OLMo 3 tokenizer（词表 100,278），288 张 H100 跑 43,308 GPU-hours。预训练 1.3T tokens 后接两阶段 mid-training 共 250B tokens，数据全部来自公开语料并完整记录配比。关键性能：在 MMLU（51.1）、GSM8K（32.8）、HumanEval（22.6）、MBPP（26.6）、TruthfulQA（46.6）、RACE（41.4）上达到或超过同 token 预算的 Llama 2-7B、Falcon-7B、OLMo-7B；但 PIQA（66.4）、HellaSwag（60.0）、WinoGrande（60.0）明显落后，作者归因为教育数据过重——这是已知的 quality filtering 副作用，并非架构问题。 Sumi 真正深层的贡献在 §4 探索性实验，对 UDLM 三条乐观叙事做了冷静的边界测试：(1) 可用 canvas 长度严格受训练长度限制（1184 / 4864），过短生成显著劣化；(2) confidence 采样器自动诱导出 task-shaped 提交顺序，让顺序无关的模型获得结构化能力，并在编程任务上支持 k=4 tokens/step 并行解码（多步算术任务仍敏感）；(3) 显式 revision 预算不带来 self-correction：58-100% revision 步会覆盖已提交 token，但净变化 < 1%，多为 A→B→A 往返——简单堆算力换不来自我修正。对从业者的判断：Sumi 第一次让社区能严肃研究「从零训练的 UDLM 在数据富集区究竟如何」，提供干净的 scaling reference point。但它也明确划出 UDLM 的能力边界——灵活性不是免费午餐，commitment order、canvas 长度、sampler 选择共同决定实际质量。下一阶段关键问题不是「扩散能否替代自回归」，而是「在哪些任务上，UDLM 的灵活性值得放弃 AR 的成熟工程栈」。