[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-745a2408-1c48-457f-8daa-ff8855fe8e09":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"745a2408-1c48-457f-8daa-ff8855fe8e09","ScarfBench：把 coding agent 拖到企业 Java 框架迁移的真实场景里\"裸考\"","IBM Research 在 Hugging Face 发布 ScarfBench（Self-Contained Application Refactoring Benchmark）——首个面向企业 Java 框架迁移（Spring \u002F Jakarta EE \u002F Quarkus）的 coding agent 评测基准。\n\n数据集规格：34 个真实企业应用、102 个 framework 实现、204 个迁移任务、约 15.1 万行代码、1331 个专家手写的行为测试。评测分三道关：能否编译、能否部署、能否跑通行为验证。\n\n真正刺眼的是结果——前沿 coding agent 集体翻车：即便是当前最强的 agent，行为通过率也不到 10%。Claude Code 在 30 个整库迁移中自报 29 个构建成功，但独立验证后只有 22 个真的能 build 通过；唯一一个被 agent 判为失败的应用，最后反而 build 成功了。编译通过率系统性高估了真实迁移质量。\n\n作者进一步分析 trace 发现：迁移并非线性源码转换，而是 Configuration ↔ Web ↔ Database ↔ Service 之间的迭代依赖解析，Configuration 占据绝大部分回访时间；Docker 缓存、Maven wrapper、端口冲突这些\"非代码\"问题同样拖慢验证。\n\n启示是：企业框架迁移的真正瓶颈不是 Java 语法翻译，而是配置、基础设施、运行时环境构成的依赖网络管理。这一发现把\"行为正确性\"重新放回了 coding agent 评测的中心。ScarfBench 的 leaderboard、benchmark 与 HF Space 均已开源，欢迎所有 agent 来\"裸考\"。","https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fibm-research\u002Fscarfbench","24d5c6c5-6573-4180-a1fd-f1459842d1af",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent","2026-07-04T20:00:00Z","2026-07-04T20:11:47.423223Z","2026-07-04T20:11:47.423235Z",true,"agent",3]