在大模型数学推理赛道上,「做对题」与「写出完整证明」之间存在巨大鸿沟。MiniMax 团队最新论文 MaxProof 直面这一鸿沟,把证明生成、证明验证、批评条件下的证明修复三种能力训练到同一个 M3 模型中,再以「防御纵深」型生成式验证器保障低假阳率。 在测试阶段,MaxProof 让单一模型同时承担生成器、验证器、精炼器与排序器四种角色,对候选证明种群进行锦标赛式搜索,最终输出唯一证明。配合其稀疏注意力底座,团队将测试时算力消耗压到可承受范围。 成绩单令人瞩目:M3+MaxProof 在 IMO 2025 上取得 35/42 分,在 USAMO 2026 上取得 36/42 分——两项赛事的金牌分数线均被甩在身后。这是开源权重模型首次在奥数级证明任务上同时跨过人类金牌线,标志测试时缩放与 RL 后训练的有效组合正在把推理模型的天花板抬高。 工程上值得注意的是「端到端」:没有外接形式化系统,没有把证明外包给 Lean 等外部工具,所有生成-验证-排名都在单一 M3 权重内闭环完成。论文 30 页,把训练配方、奖励工程、种群搜索策略全摊开,对研究社区是可复现的样板。