DeepSWE 接管 Coding Agent 评测：SWE-Bench Pro 32% 误判如何被基准审计撕开

Artificial Analysis 把 Coding Agent Index 核心评测从 SWE-Bench Pro 切到 Datacurve 的 DeepSWE：Codex + GPT-5.5 (xhigh) 从 65 跳到 76，新发的 Claude Code + Fable 5 (max) 以 77 登顶。DeepSWE 诊断 AI 评审员对 SWE-Bench Pro verifier 有 32% 不一致：8% 假阳性、24% 假阴性。 DeepSWE 差异：113 题从零写、拒绝 GitHub PR 泄漏，覆盖 91 仓库 5 种语言，远超 SWE-Bench Pro 的 11 仓库；prompt 一半长但代码量 5.5×、输出 token 2×，更接近真实工程；verifier 按任务手写。意义不止换榜单，而是评测范式迁移。当 benchmark contamination 已成为 Anthropic 等厂商公开担忧的议题，评测必须从GitHub