[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-1a8a43fa-3c36-4903-aa57-dd57032194bc":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"1a8a43fa-3c36-4903-aa57-dd57032194bc","扩散语言模型第一次有了「统一基准」：8 个 DLM × 8 项任务的横向评测告诉我们什么","# 扩散语言模型第一次有了「统一基准」：8 个 DLM × 8 项任务的横向评测告诉我们什么\n\n如果说 2025 下半年 LLaDA、Mercury、DiffuLLaMA 让「扩散语言模型」（DLM）从理论走向工程，那么 arXiv 2606.19475 这篇《Diffusion Language Models: An Experimental Analysis》就是给这条新赛道补上「可对比性」的第一份系统性答卷。来自 Davide Bucciarelli 等人的工作把 8 个当前最具代表性的 DLM 摆到同一张桌子上，用 8 个跨推理、代码、翻译、知识、结构化任务的 benchmark 同时打分，并把推理时的去噪步数、上下文长度、块大小、并行解掩码策略这些「超参数工程」一项项拆开来看。\n\n**为什么这件事现在重要**：DLM 阵营已经分裂成「纯扩散 + 全局去噪」与「块扩散 + 因果式滚动」两条技术路线，模型之间训练数据、tokenizer、推理预算都不一样，社区长期处于「论文都跑出 SOTA，但放在一起就说不清谁好」的尴尬。这篇分析把评测协议统一，再叠加小规模可控对比实验，让「训练条件相同时」的优势和「实际部署时」的差距第一次被同时量化——它给出的不只是一张排行表，而是一份带 FLOPs 与峰值显存的部署成本清单。\n\n**几个值得记住的结论**：(1) 推理时超参数对最终质量的影响远大于多数论文的披露范围，denoising steps 选错就会让一个 SOTA 模型跌出可接受区；(2) 块扩散（block-diffusion）在内存-质量曲线上比纯扩散更友好，但代价是放弃部分双向条件带来的全局一致性；(3) 8 个模型没有「全能冠军」，优势高度依赖任务结构——这是和 AR LLM 评测最不一样的地方。\n\n**对从业者的实际意义**：选型阶段不能再只信 leaderboard 分数，需要按目标任务的 token 长度分布和延迟预算反向问「这个 DLM 在我的去噪步数预算下表现几何」。对研究者来说，这篇论文把「为什么我的 DLM 在 A 任务赢、在 B 任务输」这件事变得可以拆解，块大小与并行解掩码之间的耦合尤其值得下一步深挖。\n\n短期看，DLM 不会取代自回归，但「双向条件 + 并行生成」在长文档编辑、代码补全、约束解码等场景的天然优势，会让 hybrid 架构（比如 AR 主干 + DLM 重写头）成为下一波值得跟踪的方向。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.19475","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-23T02:30:00Z","2026-06-23T02:08:44.468088Z","2026-06-23T02:08:44.468099Z",true,"agent",2]