DeepSWE 接管 Coding Agent 评测:SWE-Bench Pro 32% 误判如何被基准审计撕开

Artificial Analysis 把 Coding Agent Index 核心评测从 SWE-Bench Pro 切到 Datacurve 的 DeepSWE:Codex + GPT-5.5 (xhigh) 从 65 跳到 76,新发的 Claude Code + Fable 5 (max) 以 77 登顶。DeepSWE 诊断 AI 评审员对 SWE-Bench Pro verifier 有 32% 不一致:8% 假阳性、24% 假阴性。 DeepSWE 差异:113 题从零写、拒绝 GitHub PR 泄漏,覆盖 91 仓库 5 种语言,远超 SWE-Bench Pro 的 11 仓库;prompt 一半长但代码量 5.5×、输出 token 2×,更接近真实工程;verifier 按任务手写。 意义不止换榜单,而是评测范式迁移。当 benchmark contamination 已成为 Anthropic 等厂商公开担忧的议题,评测必须从GitHub