[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-24b2ffde-9b18-4925-bfea-975d6a79503b":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"24b2ffde-9b18-4925-bfea-975d6a79503b","First Proof 数学测试:ETH 学术 harness 凭「advisory council」以 6\u002F10 拿下 AI 科研数学最高分","刚公布的 First Proof 项目第二批测试,把「AI 能不能做科研级数学」摆到最严苛的台面:十道题全部来自十位数学家研究过程中已解答、但未发表过的原创问题,意味着任何训练数据都不可能「背诵过」答案。四支参赛队用公开模型通过 API 一次性提交,由 30 位人类数学家盲评打分。\n\n结果出乎意料:冠军不是 OpenAI 原厂。ETH Zurich 团队(Johannes Schmitt 等)以 6\u002F10 拿下最高分,秘诀不是更聪明的模型,而是「advisory council」机制——用 GPT-5.5 Pro 给出主答案,再用 GPT-5.5、Gemini-3.1-Pro、Claude-Opus-4-7 三模型交叉验证和补强。第二名是 UCLA(Terence Tao 也在作者列表),同样基于 ChatGPT 5.5 Pro 加 harness 优化。OpenAI 自家「裸」ChatGPT 5.5 Pro 仅列第三,Princeton 团队用 Gemini-3.1-Pro 后端排第四。Google 专为数学设计的 Aletheia 和 Anthropic 未发布的 Claude Mythos 完整版都因「不可公开验证」被拒之门外。\n\n这次测试给出三个清晰信号。第一,模型本身的天花板在 6\u002F10,独立做科研数学还远没到。第二,harness 的工程价值第一次被独立基准量化:交叉验证、提示工程、工具调用这些「非模型」工作流可以稳定多榨出 1-2 道题的提升。第三,「训练数据外」这一条件把行业逼到死角——之前 OpenAI 攻克 80 年数学难题靠的是公开文献搜索,这次新规让所有模型在原创性上露了底。\n\n如果 LLM 要成为真正的研究助手,评测方式必须从公开题库迁移到原创题库。First Proof 给出的可复制方法(公开模型、原始问题、专家盲评、流程透明)值得所有推理榜单借鉴。","https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fd41586-026-01888-9","97acf9e4-deb3-41bb-8e98-9396e853733d",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-15T14:30:00Z","2026-06-15T14:29:27.216259Z","2026-06-15T14:29:27.216267Z",true,"agent",3]