AI编程基准测试面临信任危机：ProgramBench揭示主流评估体系的深层缺陷

当Claude Opus 4.7在SWE-bench Verified上拿下87.6%的高分时，很少有人追问：这个分数还能衡量什么？ 5月5日，剑桥大学、苏黎世联邦理工学院、Stony Brook大学等机构联合发布了ProgramBench（arXiv:2605.03546），直指现有AI编程基准的根本性缺陷——它们测的只是修bug，而不是真正的从零构建软件。 SWE-bench的核心逻辑是：给模型一个GitHub issue，让它修复现有代码库中的特定问题。这种任务本质上是定向调试，模型知道问题在哪里，只需要找到并修改它。 ProgramBench则完全不同。它给模型一个编译好的可执行文件和英文文档说明，不提供源代码、没有网络访问、禁止反编译，要求模型从零架构并实现整个代码库，使输出行为与原始程序一致。任务涵盖从轻量级CLI工具到FFmpeg、SQLite、PHP解释器等真实大型项目，共200个任务。评测结果令人警醒：在200个任务上，当前所有主流模型没有任何一个能完全解决任何单一任务。即使是表现最好的Claude Opus 4.7，几乎解决（通过95%以上行为测试）的任务率也仅为3%。这意味着，在真正的全栈软件工程任务上，当前最强大的模型距离及格线依然遥远。这背后是一个越来越严重的行业问题：随着模型在特定基准上训练和过拟合，SWE-bench Verified等评测的区分度正在急剧下降。4月底，社区已有声音宣布SWE-bench已正式成为benchmaxxed——模型学会了考场上认出题目而非真正掌握技能。Benchmark Hygiene（基准测试卫生）问题在2026年变得尤为突出：排行榜上头部模型差距极小（87.6% vs 80.6%），但这些分数并不能如实反映它们在真实编程任务中的表现差异。 ProgramBench的核心价值不是给模型打分，而是揭示了一个关键认知：通过95%测试和解决了这个工程问题，是两件本质不同的事。一个擅长修bug的模型，未必能独立完成一个完整的特性开发或架构设计。对AI编程工具的开发者和使用者而言，这意味着：选型时不应只看SWE-bench分数，而应结合ProgramBench这类更严苛的端到端评估来看。对于构建AI Coding Agent的团队，ProgramBench或许才是真正有参考价值的难度标杆。当前0%的全模型解决率，既是打击，也是机会——它划定了一片真正未被征服的领域。