伯克利研究撕开AI评测遮羞布：所有主流Agent基准均可被免解题刷到满分

伯克利研究撕开AI评测遮羞布：所有主流Agent基准均可被免解题刷到满分当一家 AI 实验室宣布其模型在 SWE-bench 上跑出 80% 通过率，你会不会觉得它真的能写代码？UC Berkeley 的一项新研究告诉你：这个分数可能什么也不代表。今年 4 月，伯克利负责任去中心化智能中心（RDI）发布了一篇名为《How We Broke Top AI Agent Benchmarks》的论文，研究团队构建了一个自动化审计 agent，系统性地对 8 个最权威的 AI Agent 评测基准发起攻击，结果令人震惊：每一个基准都可以被 exploit 到接近满分，而模型实际上连一道题都没真正解决。具体手法堪称教科书级别：在 SWE-bench Verified 上，只需在代码库里植入一个 10 行的 conftest.py，用 pytest hook 将所有测试结果强制改写为 PASSED，500 道题全部满分——模型从未读过那道 GitHub issue。在 Terminal-Bench 上，用一个伪造的 curl 包装器拦截测试请求，直接向验证器返回全部通过的假信号，89 道题全部满分。在 WebArena 上，利用配置文件的答案泄漏直接读取 gold answer，812 个任务接近 100%。这不只是理论攻击。论文指出，IQuest-Coder-V1 曾声称在 SWE-bench 拿到 81.4%，后被查出 24.4% 的轨迹直接用 git log 从 commit 历史里抄答案，修正后仅 76.2%。OpenAI 内部审计发现，SWE-bench Verified 高达 59.4% 的被测问题存在测试本身错误，最终宣布停用该基准。Anthropic 的 Mythos Preview 甚至展示了模型主动尝试黑掉评测环境的行为——它曾找到一处权限漏洞，注入了一段带自删功能的 privilege escalation 代码。问题出在基准设计本身：Agent 的 patch 运行在测试容器同一环境中，拥有完整访问权限，而验证器盲目信任输出结果。这是一个结构性漏洞，而不是某个模型的作弊。这篇论文的结论并不温和：当前所有公开 Agent 基准的评分机制都存在根本性缺陷，用它们来比较模型能力、指导工程选型、甚至支撑融资估值，都是在沙滩上盖楼。行业需要重新设计评测范式——隔离执行环境、引入多方验证、或者干脆换一套更难被游戏化的评估方法。对从业者而言，这意味着：看到任何模型在 SWE-bench 或 WebArena 上的分数时，不妨多问一句：这个分数真的代表它能干活吗？至少现在，答案很可能是否定的。