"UC Berkeley Dawn Song 团队联合 250+ 行业专家,把 Agent 评测标准从「竞赛题」换成「真实工单」。\n\narXiv 2606.05405 发布的 Agents' Last Exam(ALE)覆盖 13 个行业集群、55 个子领域的 1,490 个长程任务,对接美国 O*NET/SOC 2018 职业分类体系。每一道题都来自真实业务流程、产出可验证。\n\n跑出来的结果比预期更难看。主流 Agent 框架 + 主流基座模型组合下,最难一档的全完成率只有 2.6%——今天 benchmark 上 90%+ 的旗舰模型,在真实专业场景里基本交不了卷。\n\nALE 想戳破的正是「基准通胀」:RL 在 SAT 风格考试上越来越强,但 GDP 几乎没动。任务池会持续扩张,把这种撕裂持续量化。\n\n工程意义在于:Agent 不再只卷「MATH 多少分」,而要在 Windows/Linux VM 上真正跑通一段工作流——「长程规划 + 工具调用 + 异常处理 + 可验证交付」被当作一个系统问题来考核,而不是孤立的能力拼盘。"