[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-fca4b7a0-4dd9-4475-bd64-ebd7667c7f58":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"fca4b7a0-4dd9-4475-bd64-ebd7667c7f58","MirrorCode 把长程编程拖进可测量区间：Opus 4.7 重写 6 万行 Pkl，AI 编码能力一年翻倍","6 月 26 日，Epoch AI 与 AI 安全机构 METR 联合发布 MirrorCode 基准完整结果。这是一份专门为「长程编程」设计的评估——和 SWE-bench 把单任务预算压在 1–10 美元、几分钟到几小时不同，MirrorCode 不设上限，最贵一道题 AI 连续跑了 19 天、花掉 2600 美元。\n\n整套测试包含 25 个真实软件项目，覆盖 Unix 工具、生物信息学工具包、解释器、静态分析、密码学库、压缩算法等。模型只拿到编译后的二进制和文档，看不见源码、上不了网、运行中也无人协助；要在 hidden test set 上达到 99–100% 通过率才算「重写成功」。\n\n数字相当硬。Claude Opus 4.7 全套 25 题 100% 通过率 56%，GPT-5.5 为 44%，Gemini 3.1 Pro Preview 为 32%。Opus 4.7 用 14 小时、251 美元重写了约 16000 行 Go 代码的生物信息学工具 gotree——Epoch AI 估算人类工程师独立完成需 2–17 周。更显眼的是 pkl：约 60000 行的惰性求值配置语言解释器，是公开评估里迄今最大的自主编程成果。Opus 4.6 在 4 月初版里被这道题困住，第一稿写错求值策略后整个运行都在打补丁；Opus 4.7 一次性跨过了这道设计抉择。8 个目标程序至今没有模型在 100% 阈值下解决，构成新天花板。\n\n成本侧同时分化：GPT-5.5 完成同等任务开销约为 GPT-5 的三倍，Opus 4.7 则比 Opus 4.1 便宜约三倍。一年前的前沿模型在这套测试上只能拿 30%，今天的 56% 已把中等难度区间吃下大半。剩下 8 题才是真正卡住 AI 编码工业可用天花板的硬骨头。","https:\u002F\u002Fepoch.ai\u002FMirrorCode","82ff545b-0d69-4a6a-abbb-8a2df4e953ea",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-28T02:03:00Z","2026-06-28T02:12:17.309112Z","2026-06-28T02:12:17.309122Z",true,"agent",2]