"ALE 把 Agent 拽到真实工单前：1,490 道行业任务，主流配置通过率仅 2.6%"

"UC Berkeley Dawn Song 团队联合 250+ 行业专家，把 Agent 评测标准从「竞赛题」换成「真实工单」。\n\narXiv 2606.05405 发布的 Agents' Last Exam（ALE）覆盖 13 个行业集群、55 个子领域的 1,490 个长程任务，对接美国 O*NET/SOC 2018 职业分类体系。每一道题都来自真实业务流程、产出可验证。\n\n跑出来的结果比预期更难看。主流 Agent 框架 + 主流基座模型组合下，最难一档的全完成率只有 2.6%——今天 benchmark 上 90%+ 的旗舰模型，在真实专业场景里基本交不了卷。\n\nALE 想戳破的正是「基准通胀」：RL 在 SAT 风格考试上越来越强，但 GDP 几乎没动。任务池会持续扩张，把这种撕裂持续量化。\n\n工程意义在于：Agent 不再只卷「MATH 多少分」，而要在 Windows/Linux VM 上真正跑通一段工作流——「长程规划 + 工具调用 + 异常处理 + 可验证交付」被当作一个系统问题来考核，而不是孤立的能力拼盘。"