Open Agent Leaderboard 把评测对象从模型换成 Agent 系统:同一模型为何能跑出三个分数

过去两年几乎所有 AI 评测榜单都在回答同一个问题:哪个模型最强?IBM Research 与 Hugging Face 联合推出的 Open Agent Leaderboard 给出了不一样的答案——真正决定 Agent 表现的,不只是模型本身,而是包裹在模型外的整个 Agent 系统。榜单采用 5 个模型 × 5 个 Agent 框架 × 6 个公开基准(代码、客服、技术支持、个人助理、科研等),每种组合都给出成功率、平均任务成本和失败成本。结果反直觉:得分最高的三套配置底层用的是同一款模型,只因搭载的 Agent 框架不同,得分和成本就拉开了明显差距。几个值得关注的发现:模型仍是主因子,但 Agent 已能反作用,工具筛选能让所有测试模型的成绩稳定提升;通用 Agent 已能与专项 Agent 持平,没有针对特定 benchmark 微调的通用 Agent 在多个任务上追平甚至反超专门系统;失败比成功更贵,失败运行比成功运行多花 20%–54% 的成本;开源权重仍有差距,已纳入的 DeepSeek V3.2、Kimi K2.5 在多数 benchmark 上仍落后闭源前沿模型 18–29 个百分点。配套开源的 Exgentic 评测框架允许任意 Agent 接入同一协议后自动提交结果,整套方法论已被 ICLR 2026 General Agent 研讨会接收。Agent 行业已经走过模型为王的第一阶段,Open Agent Leaderboard 给出的信号很直接:今后在采购或部署 Agent 时,光看模型跑分已经不够——Agent 框架、工具管理、上下文调度这些模型之外的工程变量,正在成为新的差距来源。