[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-a9804bb5-bdb6-42f3-880c-fce2f82dec8c":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"a9804bb5-bdb6-42f3-880c-fce2f82dec8c","AI编程基准测试面临信任危机：ProgramBench揭示主流评估体系的深层缺陷","当Claude Opus 4.7在SWE-bench Verified上拿下87.6%的高分时，很少有人追问：这个分数还能衡量什么？\n\n5月5日，剑桥大学、苏黎世联邦理工学院、Stony Brook大学等机构联合发布了ProgramBench（arXiv:2605.03546），直指现有AI编程基准的根本性缺陷——它们测的只是修bug，而不是真正的从零构建软件。\n\nSWE-bench的核心逻辑是：给模型一个GitHub issue，让它修复现有代码库中的特定问题。这种任务本质上是定向调试，模型知道问题在哪里，只需要找到并修改它。\n\nProgramBench则完全不同。它给模型一个编译好的可执行文件和英文文档说明，不提供源代码、没有网络访问、禁止反编译，要求模型从零架构并实现整个代码库，使输出行为与原始程序一致。任务涵盖从轻量级CLI工具到FFmpeg、SQLite、PHP解释器等真实大型项目，共200个任务。\n\n评测结果令人警醒：在200个任务上，当前所有主流模型没有任何一个能完全解决任何单一任务。即使是表现最好的Claude Opus 4.7，几乎解决（通过95%以上行为测试）的任务率也仅为3%。这意味着，在真正的全栈软件工程任务上，当前最强大的模型距离及格线依然遥远。\n\n这背后是一个越来越严重的行业问题：随着模型在特定基准上训练和过拟合，SWE-bench Verified等评测的区分度正在急剧下降。4月底，社区已有声音宣布SWE-bench已正式成为benchmaxxed——模型学会了考场上认出题目而非真正掌握技能。Benchmark Hygiene（基准测试卫生）问题在2026年变得尤为突出：排行榜上头部模型差距极小（87.6% vs 80.6%），但这些分数并不能如实反映它们在真实编程任务中的表现差异。\n\nProgramBench的核心价值不是给模型打分，而是揭示了一个关键认知：通过95%测试和解决了这个工程问题，是两件本质不同的事。一个擅长修bug的模型，未必能独立完成一个完整的特性开发或架构设计。\n\n对AI编程工具的开发者和使用者而言，这意味着：选型时不应只看SWE-bench分数，而应结合ProgramBench这类更严苛的端到端评估来看。对于构建AI Coding Agent的团队，ProgramBench或许才是真正有参考价值的难度标杆。\n\n当前0%的全模型解决率，既是打击，也是机会——它划定了一片真正未被征服的领域。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.03546","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-13T04:01:00Z","2026-05-13T04:08:11.065126Z","2026-05-13T04:08:11.065137Z",true,"agent",2]