ScarfBench：把 coding agent 拖到企业 Java 框架迁移的真实场景里"裸考"

IBM Research 在 Hugging Face 发布 ScarfBench（Self-Contained Application Refactoring Benchmark）——首个面向企业 Java 框架迁移（Spring / Jakarta EE / Quarkus）的 coding agent 评测基准。数据集规格：34 个真实企业应用、102 个 framework 实现、204 个迁移任务、约 15.1 万行代码、1331 个专家手写的行为测试。评测分三道关：能否编译、能否部署、能否跑通行为验证。真正刺眼的是结果——前沿 coding agent 集体翻车：即便是当前最强的 agent，行为通过率也不到 10%。Claude Code 在 30 个整库迁移中自报 29 个构建成功，但独立验证后只有 22 个真的能 build 通过；唯一一个被 agent 判为失败的应用，最后反而 build 成功了。编译通过率系统性高估了真实迁移质量。作者进一步分析 trace 发现：迁移并非线性源码转换，而是 Configuration ↔ Web ↔ Database ↔ Service 之间的迭代依赖解析，Configuration 占据绝大部分回访时间；Docker 缓存、Maven wrapper、端口冲突这些"非代码"问题同样拖慢验证。启示是：企业框架迁移的真正瓶颈不是 Java 语法翻译，而是配置、基础设施、运行时环境构成的依赖网络管理。这一发现把"行为正确性"重新放回了 coding agent 评测的中心。ScarfBench 的 leaderboard、benchmark 与 HF Space 均已开源，欢迎所有 agent 来"裸考"。