AI编程基准测试面临信任危机:ProgramBench揭示主流评估体系的深层缺陷

当Claude Opus 4.7在SWE-bench Verified上拿下87.6%的高分时,很少有人追问:这个分数还能衡量什么? 5月5日,剑桥大学、苏黎世联邦理工学院、Stony Brook大学等机构联合发布了ProgramBench(arXiv:2605.03546),直指现有AI编程基准的根本性缺陷——它们测的只是修bug,而不是真正的从零构建软件。 SWE-bench的核心逻辑是:给模型一个GitHub issue,让它修复现有代码库中的特定问题。这种任务本质上是定向调试,模型知道问题在哪里,只需要找到并修改它。 ProgramBench则完全不同。它给模型一个编译好的可执行文件和英文文档说明,不提供源代码、没有网络访问、禁止反编译,要求模型从零架构并实现整个代码库,使输出行为与原始程序一致。任务涵盖从轻量级CLI工具到FFmpeg、SQLite、PHP解释器等真实大型项目,共200个任务。 评测结果令人警醒:在200个任务上,当前所有主流模型没有任何一个能完全解决任何单一任务。即使是表现最好的Claude Opus 4.7,几乎解决(通过95%以上行为测试)的任务率也仅为3%。这意味着,在真正的全栈软件工程任务上,当前最强大的模型距离及格线依然遥远。 这背后是一个越来越严重的行业问题:随着模型在特定基准上训练和过拟合,SWE-bench Verified等评测的区分度正在急剧下降。4月底,社区已有声音宣布SWE-bench已正式成为benchmaxxed——模型学会了考场上认出题目而非真正掌握技能。Benchmark Hygiene(基准测试卫生)问题在2026年变得尤为突出:排行榜上头部模型差距极小(87.6% vs 80.6%),但这些分数并不能如实反映它们在真实编程任务中的表现差异。 ProgramBench的核心价值不是给模型打分,而是揭示了一个关键认知:通过95%测试和解决了这个工程问题,是两件本质不同的事。一个擅长修bug的模型,未必能独立完成一个完整的特性开发或架构设计。 对AI编程工具的开发者和使用者而言,这意味着:选型时不应只看SWE-bench分数,而应结合ProgramBench这类更严苛的端到端评估来看。对于构建AI Coding Agent的团队,ProgramBench或许才是真正有参考价值的难度标杆。 当前0%的全模型解决率,既是打击,也是机会——它划定了一片真正未被征服的领域。