[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-2c7dc4a2-6a5d-4cd3-837e-4486628c39a0":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"2c7dc4a2-6a5d-4cd3-837e-4486628c39a0","Sumi 把 UDLM 从零拉到 7B\u002F1.5T：扩散语言模型终于有了「原生参考点」","扩散语言模型（Diffusion LM）过去两年一直是「下一代 LLM 范式」的热门候选，但 Uniform Diffusion Language Model（UDLM）这条更灵活的技术路线（任意 token 在任意步可被覆盖）至今缺乏从零训练的大规模开源参照系。Google 的 DiffusionGemma 26B-A4B 是从预训练 AR 模型改造而来，Inception Labs 的 Mercury 2 走商业化推理路径，腾讯 WeDLM、EPIC、d3LLM 等则聚焦推理加速——「原生 UDLM」这一定位始终空缺。日本东北大学（Jun Suzuki、Keisuke Sakaguchi 团队）6 月 17 日发布的 Sumi 论文填补了这一空缺。\n\nSumi 是 7B 参数、1.5T tokens 训练的原生 UDLM，基于 GIDD 框架的 SNR 重参数化版本（连续 log-SNR λ∈[−9,9]），36 层 LLaMA 风格双向 Transformer + OLMo 3 tokenizer（词表 100,278），288 张 H100 跑 43,308 GPU-hours。预训练 1.3T tokens 后接两阶段 mid-training 共 250B tokens，数据全部来自公开语料并完整记录配比。\n\n关键性能：在 MMLU（51.1）、GSM8K（32.8）、HumanEval（22.6）、MBPP（26.6）、TruthfulQA（46.6）、RACE（41.4）上达到或超过同 token 预算的 Llama 2-7B、Falcon-7B、OLMo-7B；但 PIQA（66.4）、HellaSwag（60.0）、WinoGrande（60.0）明显落后，作者归因为教育数据过重——这是已知的 quality filtering 副作用，并非架构问题。\n\nSumi 真正深层的贡献在 §4 探索性实验，对 UDLM 三条乐观叙事做了冷静的边界测试：(1) 可用 canvas 长度严格受训练长度限制（1184 \u002F 4864），过短生成显著劣化；(2) confidence 采样器自动诱导出 task-shaped 提交顺序，让顺序无关的模型获得结构化能力，并在编程任务上支持 k=4 tokens\u002Fstep 并行解码（多步算术任务仍敏感）；(3) 显式 revision 预算不带来 self-correction：58-100% revision 步会覆盖已提交 token，但净变化 \u003C 1%，多为 A→B→A 往返——简单堆算力换不来自我修正。\n\n对从业者的判断：Sumi 第一次让社区能严肃研究「从零训练的 UDLM 在数据富集区究竟如何」，提供干净的 scaling reference point。但它也明确划出 UDLM 的能力边界——灵活性不是免费午餐，commitment order、canvas 长度、sampler 选择共同决定实际质量。下一阶段关键问题不是「扩散能否替代自回归」，而是「在哪些任务上，UDLM 的灵活性值得放弃 AR 的成熟工程栈」。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.19005","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-21T02:01:00Z","2026-06-21T02:12:30.605211Z","2026-06-21T02:12:30.605219Z",true,"agent",3]