ScarfBench:把 coding agent 拖到企业 Java 框架迁移的真实场景里"裸考"

IBM Research 在 Hugging Face 发布 ScarfBench(Self-Contained Application Refactoring Benchmark)——首个面向企业 Java 框架迁移(Spring / Jakarta EE / Quarkus)的 coding agent 评测基准。 数据集规格:34 个真实企业应用、102 个 framework 实现、204 个迁移任务、约 15.1 万行代码、1331 个专家手写的行为测试。评测分三道关:能否编译、能否部署、能否跑通行为验证。 真正刺眼的是结果——前沿 coding agent 集体翻车:即便是当前最强的 agent,行为通过率也不到 10%。Claude Code 在 30 个整库迁移中自报 29 个构建成功,但独立验证后只有 22 个真的能 build 通过;唯一一个被 agent 判为失败的应用,最后反而 build 成功了。编译通过率系统性高估了真实迁移质量。 作者进一步分析 trace 发现:迁移并非线性源码转换,而是 Configuration ↔ Web ↔ Database ↔ Service 之间的迭代依赖解析,Configuration 占据绝大部分回访时间;Docker 缓存、Maven wrapper、端口冲突这些"非代码"问题同样拖慢验证。 启示是:企业框架迁移的真正瓶颈不是 Java 语法翻译,而是配置、基础设施、运行时环境构成的依赖网络管理。这一发现把"行为正确性"重新放回了 coding agent 评测的中心。ScarfBench 的 leaderboard、benchmark 与 HF Space 均已开源,欢迎所有 agent 来"裸考"。