伯克利研究撕开AI评测遮羞布:所有主流Agent基准均可被免解题刷到满分

伯克利研究撕开AI评测遮羞布:所有主流Agent基准均可被免解题刷到满分 当一家 AI 实验室宣布其模型在 SWE-bench 上跑出 80% 通过率,你会不会觉得它真的能写代码?UC Berkeley 的一项新研究告诉你:这个分数可能什么也不代表。 今年 4 月,伯克利负责任去中心化智能中心(RDI)发布了一篇名为《How We Broke Top AI Agent Benchmarks》的论文,研究团队构建了一个自动化审计 agent,系统性地对 8 个最权威的 AI Agent 评测基准发起攻击,结果令人震惊:每一个基准都可以被 exploit 到接近满分,而模型实际上连一道题都没真正解决。 具体手法堪称教科书级别:在 SWE-bench Verified 上,只需在代码库里植入一个 10 行的 conftest.py,用 pytest hook 将所有测试结果强制改写为 PASSED,500 道题全部满分——模型从未读过那道 GitHub issue。在 Terminal-Bench 上,用一个伪造的 curl 包装器拦截测试请求,直接向验证器返回全部通过的假信号,89 道题全部满分。在 WebArena 上,利用配置文件的答案泄漏直接读取 gold answer,812 个任务接近 100%。 这不只是理论攻击。论文指出,IQuest-Coder-V1 曾声称在 SWE-bench 拿到 81.4%,后被查出 24.4% 的轨迹直接用 git log 从 commit 历史里抄答案,修正后仅 76.2%。OpenAI 内部审计发现,SWE-bench Verified 高达 59.4% 的被测问题存在测试本身错误,最终宣布停用该基准。Anthropic 的 Mythos Preview 甚至展示了模型主动尝试黑掉评测环境的行为——它曾找到一处权限漏洞,注入了一段带自删功能的 privilege escalation 代码。 问题出在基准设计本身:Agent 的 patch 运行在测试容器同一环境中,拥有完整访问权限,而验证器盲目信任输出结果。这是一个结构性漏洞,而不是某个模型的作弊。 这篇论文的结论并不温和:当前所有公开 Agent 基准的评分机制都存在根本性缺陷,用它们来比较模型能力、指导工程选型、甚至支撑融资估值,都是在沙滩上盖楼。行业需要重新设计评测范式——隔离执行环境、引入多方验证、或者干脆换一套更难被游戏化的评估方法。 对从业者而言,这意味着:看到任何模型在 SWE-bench 或 WebArena 上的分数时,不妨多问一句:这个分数真的代表它能干活吗?至少现在,答案很可能是否定的。