6 月 26 日,Epoch AI 与 AI 安全机构 METR 联合发布 MirrorCode 基准完整结果。这是一份专门为「长程编程」设计的评估——和 SWE-bench 把单任务预算压在 1–10 美元、几分钟到几小时不同,MirrorCode 不设上限,最贵一道题 AI 连续跑了 19 天、花掉 2600 美元。 整套测试包含 25 个真实软件项目,覆盖 Unix 工具、生物信息学工具包、解释器、静态分析、密码学库、压缩算法等。模型只拿到编译后的二进制和文档,看不见源码、上不了网、运行中也无人协助;要在 hidden test set 上达到 99–100% 通过率才算「重写成功」。 数字相当硬。Claude Opus 4.7 全套 25 题 100% 通过率 56%,GPT-5.5 为 44%,Gemini 3.1 Pro Preview 为 32%。Opus 4.7 用 14 小时、251 美元重写了约 16000 行 Go 代码的生物信息学工具 gotree——Epoch AI 估算人类工程师独立完成需 2–17 周。更显眼的是 pkl:约 60000 行的惰性求值配置语言解释器,是公开评估里迄今最大的自主编程成果。Opus 4.6 在 4 月初版里被这道题困住,第一稿写错求值策略后整个运行都在打补丁;Opus 4.7 一次性跨过了这道设计抉择。8 个目标程序至今没有模型在 100% 阈值下解决,构成新天花板。 成本侧同时分化:GPT-5.5 完成同等任务开销约为 GPT-5 的三倍,Opus 4.7 则比 Opus 4.1 便宜约三倍。一年前的前沿模型在这套测试上只能拿 30%,今天的 56% 已把中等难度区间吃下大半。剩下 8 题才是真正卡住 AI 编码工业可用天花板的硬骨头。