First Proof 数学测试:ETH 学术 harness 凭「advisory council」以 6/10 拿下 AI 科研数学最高分

刚公布的 First Proof 项目第二批测试,把「AI 能不能做科研级数学」摆到最严苛的台面:十道题全部来自十位数学家研究过程中已解答、但未发表过的原创问题,意味着任何训练数据都不可能「背诵过」答案。四支参赛队用公开模型通过 API 一次性提交,由 30 位人类数学家盲评打分。结果出乎意料:冠军不是 OpenAI 原厂。ETH Zurich 团队(Johannes Schmitt 等)以 6/10 拿下最高分,秘诀不是更聪明的模型,而是「advisory council」机制——用 GPT-5.5 Pro 给出主答案,再用 GPT-5.5、Gemini-3.1-Pro、Claude-Opus-4-7 三模型交叉验证和补强。第二名是 UCLA(Terence Tao 也在作者列表),同样基于 ChatGPT 5.5 Pro 加 harness 优化。OpenAI 自家「裸」ChatGPT 5.5 Pro 仅列第三,Princeton 团队用 Gemini-3.1-Pro 后端排第四。Google 专为数学设计的 Aletheia 和 Anthropic 未发布的 Claude Mythos 完整版都因「不可公开验证」被拒之门外。这次测试给出三个清晰信号。第一,模型本身的天花板在 6/10,独立做科研数学还远没到。第二,harness 的工程价值第一次被独立基准量化:交叉验证、提示工程、工具调用这些「非模型」工作流可以稳定多榨出 1-2 道题的提升。第三,「训练数据外」这一条件把行业逼到死角——之前 OpenAI 攻克 80 年数学难题靠的是公开文献搜索,这次新规让所有模型在原创性上露了底。如果 LLM 要成为真正的研究助手,评测方式必须从公开题库迁移到原创题库。First Proof 给出的可复制方法(公开模型、原始问题、专家盲评、流程透明)值得所有推理榜单借鉴。