arXiv:2606.19315 这篇论文把 dLLM 从「快」推进到「强」。过去几周我们看到的 Mercury 2、WeDLM、DiffusionGemma,主打都是 dLLM 在解码吞吐上的优势——3–6× 加速、单卡千 tokens/s——但「生成质量是否追平甚至超过 AR」一直悬而未决。Diffusion-Proof 给出了第一份来自形式化定理证明这个高难度任务的肯定答卷。 论文立论很犀利:AR-LLM 在形式化证明这种需要长程一致性的任务上有结构性短板——next-token 自回归生成一旦中段出错,错误会沿长链传递;而形式化证明对每步 tactic 的全局依赖恰恰最强。Diffusion-Proof 框架由两个互补的 7B 模型组成:dLLM-Prover-7B 借助全局双向注意力一次性规划长程 tactic 序列,整块去噪生成完整证明;dLLM-Corrector-7B 利用 dLLM 天然的 in-filling 能力做局部纠错,从错误步骤的左右双向读取上下文给出修复——这恰是 AR 模型「自左向右扫一遍」很难做到的。 同样数据集训练下,Diffusion-Proof 在 ProofNet-Test 相对 AR 基线提升 1.61 个百分点,在更难的 MiniF2F-Test 上提升 6.14 个百分点。更有说服力的是:它解决了一道 DeepSeek-Prover-V2-7B 这类「thinking 模式增强版」都拿不下的 IMO 题——这是 dLLM 在推理深度而非推理速度上首次拿出的硬证据。 一旦 dLLM 在「长程一致性 + 局部可修复」这两条轴上站住脚,就可以外推到长文档摘要、代码迁移、复杂 agent 规划这类「对全局结构敏感」的生成任务。结合 Mercury 2 那一千 tokens/s 的吞吐,dLLM 的下一站不是拼「更快」,而是啃「更难」。