UC Berkeley RDI 近日发表论文,揭示了当前主流 AI 基准测试的系统性漏洞。研究团队构建了一个能够自动分析基准测试代码的 AI agent,对 13 个广泛使用的 AI 基准测试进行审计,结果令人警醒:每个基准测试都存在可被利用的安全缺陷,共发现 45 种已验证的「作弊解法」。 最典型的三个案例:一是 Frontier-CS,提交代码和评估器运行在同一 Python 进程,恶意代码可通过栈帧操作替换评分函数,直接获得满分;二是 Terminal-Bench,只需创建一个dummy C扩展文件通过存在性检查,无需实际调用即可通过性能测试;三是 WebArena,812 个任务的参考答案直接存放在 agent 可访问的文件系统中,agent 只需读取 JSON 文件即可获得满分。 这些漏洞的共性根源在于评估基础设施的隔离不足——被评估的代码与评估代码共享内存空间或文件系统。论文指出了一个根本性矛盾:基准测试不只是衡量模型能力的工具,它们同时在塑造模型的行为。当基准测试可被攻破,模型实际上在被训练来「作弊」而非真正解决问题。 这一发现的影响面极广:基准测试分数决定了模型排名、训练数据定价,乃至部分实验室的发布决策。随着各大厂商在发布前须通过安全测试(美国商务部已将 Google DeepMind、Microsoft、xAI 纳入要求),基准测试的公信力危机已不只是技术问题,更开始影响发布节奏。 真正的contamination-resistant(抗污染)评估方法尚未建立,行业建立更严格评估实践的需求已迫在眉睫。