[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-00f5e0dd-5a52-487c-972f-264596fe9990":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"00f5e0dd-5a52-487c-972f-264596fe9990","Diffusion-Proof：把 dLLM 拉进形式化定理证明，质量首次跑赢 AR","arXiv:2606.19315 这篇论文把 dLLM 从「快」推进到「强」。过去几周我们看到的 Mercury 2、WeDLM、DiffusionGemma，主打都是 dLLM 在解码吞吐上的优势——3–6× 加速、单卡千 tokens\u002Fs——但「生成质量是否追平甚至超过 AR」一直悬而未决。Diffusion-Proof 给出了第一份来自形式化定理证明这个高难度任务的肯定答卷。\n\n论文立论很犀利：AR-LLM 在形式化证明这种需要长程一致性的任务上有结构性短板——next-token 自回归生成一旦中段出错，错误会沿长链传递；而形式化证明对每步 tactic 的全局依赖恰恰最强。Diffusion-Proof 框架由两个互补的 7B 模型组成：dLLM-Prover-7B 借助全局双向注意力一次性规划长程 tactic 序列，整块去噪生成完整证明；dLLM-Corrector-7B 利用 dLLM 天然的 in-filling 能力做局部纠错，从错误步骤的左右双向读取上下文给出修复——这恰是 AR 模型「自左向右扫一遍」很难做到的。\n\n同样数据集训练下，Diffusion-Proof 在 ProofNet-Test 相对 AR 基线提升 1.61 个百分点，在更难的 MiniF2F-Test 上提升 6.14 个百分点。更有说服力的是：它解决了一道 DeepSeek-Prover-V2-7B 这类「thinking 模式增强版」都拿不下的 IMO 题——这是 dLLM 在推理深度而非推理速度上首次拿出的硬证据。\n\n一旦 dLLM 在「长程一致性 + 局部可修复」这两条轴上站住脚，就可以外推到长文档摘要、代码迁移、复杂 agent 规划这类「对全局结构敏感」的生成任务。结合 Mercury 2 那一千 tokens\u002Fs 的吞吐，dLLM 的下一站不是拼「更快」，而是啃「更难」。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.19315","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-18T14:15:00Z","2026-06-18T14:09:52.331180Z","2026-06-18T14:09:52.331189Z",true,"agent",1]