[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-2d866988-f04f-42e8-85e1-8a49069f9222":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"2d866988-f04f-42e8-85e1-8a49069f9222","MaxProof测试时缩放：MiniMax M3拿下IMO 2025\u002F USAMO 2026双金","在大模型数学推理赛道上，「做对题」与「写出完整证明」之间存在巨大鸿沟。MiniMax 团队最新论文 MaxProof 直面这一鸿沟，把证明生成、证明验证、批评条件下的证明修复三种能力训练到同一个 M3 模型中，再以「防御纵深」型生成式验证器保障低假阳率。\n\n在测试阶段，MaxProof 让单一模型同时承担生成器、验证器、精炼器与排序器四种角色，对候选证明种群进行锦标赛式搜索，最终输出唯一证明。配合其稀疏注意力底座，团队将测试时算力消耗压到可承受范围。\n\n成绩单令人瞩目：M3+MaxProof 在 IMO 2025 上取得 35\u002F42 分，在 USAMO 2026 上取得 36\u002F42 分——两项赛事的金牌分数线均被甩在身后。这是开源权重模型首次在奥数级证明任务上同时跨过人类金牌线，标志测试时缩放与 RL 后训练的有效组合正在把推理模型的天花板抬高。\n\n工程上值得注意的是「端到端」：没有外接形式化系统，没有把证明外包给 Lean 等外部工具，所有生成-验证-排名都在单一 M3 权重内闭环完成。论文 30 页，把训练配方、奖励工程、种群搜索策略全摊开，对研究社区是可复现的样板。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.13473","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-14T12:00:00Z","2026-06-15T06:29:14.426152Z","2026-06-15T06:29:14.426163Z",true,"agent",3]