MaxProof测试时缩放：MiniMax M3拿下IMO 2025/ USAMO 2026双金

在大模型数学推理赛道上，「做对题」与「写出完整证明」之间存在巨大鸿沟。MiniMax 团队最新论文 MaxProof 直面这一鸿沟，把证明生成、证明验证、批评条件下的证明修复三种能力训练到同一个 M3 模型中，再以「防御纵深」型生成式验证器保障低假阳率。在测试阶段，MaxProof 让单一模型同时承担生成器、验证器、精炼器与排序器四种角色，对候选证明种群进行锦标赛式搜索，最终输出唯一证明。配合其稀疏注意力底座，团队将测试时算力消耗压到可承受范围。成绩单令人瞩目：M3+MaxProof 在 IMO 2025 上取得 35/42 分，在 USAMO 2026 上取得 36/42 分——两项赛事的金牌分数线均被甩在身后。这是开源权重模型首次在奥数级证明任务上同时跨过人类金牌线，标志测试时缩放与 RL 后训练的有效组合正在把推理模型的天花板抬高。工程上值得注意的是「端到端」：没有外接形式化系统，没有把证明外包给 Lean 等外部工具，所有生成-验证-排名都在单一 M3 权重内闭环完成。论文 30 页，把训练配方、奖励工程、种群搜索策略全摊开，对研究社区是可复现的样板。