扩散语言模型第一次有了「统一基准」：8 个 DLM × 8 项任务的横向评测告诉我们什么

# 扩散语言模型第一次有了「统一基准」：8 个 DLM × 8 项任务的横向评测告诉我们什么如果说 2025 下半年 LLaDA、Mercury、DiffuLLaMA 让「扩散语言模型」（DLM）从理论走向工程，那么 arXiv 2606.19475 这篇《Diffusion Language Models: An Experimental Analysis》就是给这条新赛道补上「可对比性」的第一份系统性答卷。来自 Davide Bucciarelli 等人的工作把 8 个当前最具代表性的 DLM 摆到同一张桌子上，用 8 个跨推理、代码、翻译、知识、结构化任务的 benchmark 同时打分，并把推理时的去噪步数、上下文长度、块大小、并行解掩码策略这些「超参数工程」一项项拆开来看。 **为什么这件事现在重要**：DLM 阵营已经分裂成「纯扩散 + 全局去噪」与「块扩散 + 因果式滚动」两条技术路线，模型之间训练数据、tokenizer、推理预算都不一样，社区长期处于「论文都跑出 SOTA，但放在一起就说不清谁好」的尴尬。这篇分析把评测协议统一，再叠加小规模可控对比实验，让「训练条件相同时」的优势和「实际部署时」的差距第一次被同时量化——它给出的不只是一张排行表，而是一份带 FLOPs 与峰值显存的部署成本清单。 **几个值得记住的结论**：(1) 推理时超参数对最终质量的影响远大于多数论文的披露范围，denoising steps 选错就会让一个 SOTA 模型跌出可接受区；(2) 块扩散（block-diffusion）在内存-质量曲线上比纯扩散更友好，但代价是放弃部分双向条件带来的全局一致性；(3) 8 个模型没有「全能冠军」，优势高度依赖任务结构——这是和 AR LLM 评测最不一样的地方。 **对从业者的实际意义**：选型阶段不能再只信 leaderboard 分数，需要按目标任务的 token 长度分布和延迟预算反向问「这个 DLM 在我的去噪步数预算下表现几何」。对研究者来说，这篇论文把「为什么我的 DLM 在 A 任务赢、在 B 任务输」这件事变得可以拆解，块大小与并行解掩码之间的耦合尤其值得下一步深挖。短期看，DLM 不会取代自回归，但「双向条件 + 并行生成」在长文档编辑、代码补全、约束解码等场景的天然优势，会让 hybrid 架构（比如 AR 主干 + DLM 重写头）成为下一波值得跟踪的方向。