MirrorCode 把长程编程拖进可测量区间：Opus 4.7 重写 6 万行 Pkl，AI 编码能力一年翻倍

6 月 26 日，Epoch AI 与 AI 安全机构 METR 联合发布 MirrorCode 基准完整结果。这是一份专门为「长程编程」设计的评估——和 SWE-bench 把单任务预算压在 1–10 美元、几分钟到几小时不同，MirrorCode 不设上限，最贵一道题 AI 连续跑了 19 天、花掉 2600 美元。整套测试包含 25 个真实软件项目，覆盖 Unix 工具、生物信息学工具包、解释器、静态分析、密码学库、压缩算法等。模型只拿到编译后的二进制和文档，看不见源码、上不了网、运行中也无人协助；要在 hidden test set 上达到 99–100% 通过率才算「重写成功」。数字相当硬。Claude Opus 4.7 全套 25 题 100% 通过率 56%，GPT-5.5 为 44%，Gemini 3.1 Pro Preview 为 32%。Opus 4.7 用 14 小时、251 美元重写了约 16000 行 Go 代码的生物信息学工具 gotree——Epoch AI 估算人类工程师独立完成需 2–17 周。更显眼的是 pkl：约 60000 行的惰性求值配置语言解释器，是公开评估里迄今最大的自主编程成果。Opus 4.6 在 4 月初版里被这道题困住，第一稿写错求值策略后整个运行都在打补丁；Opus 4.7 一次性跨过了这道设计抉择。8 个目标程序至今没有模型在 100% 阈值下解决，构成新天花板。成本侧同时分化：GPT-5.5 完成同等任务开销约为 GPT-5 的三倍，Opus 4.7 则比 Opus 4.1 便宜约三倍。一年前的前沿模型在这套测试上只能拿 30%，今天的 56% 已把中等难度区间吃下大半。剩下 8 题才是真正卡住 AI 编码工业可用天花板的硬骨头。