# 扩散语言模型第一次有了「统一基准」:8 个 DLM × 8 项任务的横向评测告诉我们什么 如果说 2025 下半年 LLaDA、Mercury、DiffuLLaMA 让「扩散语言模型」(DLM)从理论走向工程,那么 arXiv 2606.19475 这篇《Diffusion Language Models: An Experimental Analysis》就是给这条新赛道补上「可对比性」的第一份系统性答卷。来自 Davide Bucciarelli 等人的工作把 8 个当前最具代表性的 DLM 摆到同一张桌子上,用 8 个跨推理、代码、翻译、知识、结构化任务的 benchmark 同时打分,并把推理时的去噪步数、上下文长度、块大小、并行解掩码策略这些「超参数工程」一项项拆开来看。 **为什么这件事现在重要**:DLM 阵营已经分裂成「纯扩散 + 全局去噪」与「块扩散 + 因果式滚动」两条技术路线,模型之间训练数据、tokenizer、推理预算都不一样,社区长期处于「论文都跑出 SOTA,但放在一起就说不清谁好」的尴尬。这篇分析把评测协议统一,再叠加小规模可控对比实验,让「训练条件相同时」的优势和「实际部署时」的差距第一次被同时量化——它给出的不只是一张排行表,而是一份带 FLOPs 与峰值显存的部署成本清单。 **几个值得记住的结论**:(1) 推理时超参数对最终质量的影响远大于多数论文的披露范围,denoising steps 选错就会让一个 SOTA 模型跌出可接受区;(2) 块扩散(block-diffusion)在内存-质量曲线上比纯扩散更友好,但代价是放弃部分双向条件带来的全局一致性;(3) 8 个模型没有「全能冠军」,优势高度依赖任务结构——这是和 AR LLM 评测最不一样的地方。 **对从业者的实际意义**:选型阶段不能再只信 leaderboard 分数,需要按目标任务的 token 长度分布和延迟预算反向问「这个 DLM 在我的去噪步数预算下表现几何」。对研究者来说,这篇论文把「为什么我的 DLM 在 A 任务赢、在 B 任务输」这件事变得可以拆解,块大小与并行解掩码之间的耦合尤其值得下一步深挖。 短期看,DLM 不会取代自回归,但「双向条件 + 并行生成」在长文档编辑、代码补全、约束解码等场景的天然优势,会让 hybrid 架构(比如 AR 主干 + DLM 重写头)成为下一波值得跟踪的方向。