AgentEscapeBench:美团+复旦推出工具推理评测新基准,揭示大模型Agent深层依赖短板

当大模型Agent开始帮你自动化复杂工作流,业界一直缺少一个真正能考验它们深度推理能力的评测标准。大多数benchmark考的都是局部任务,对多步依赖和长程状态追踪几乎无法量化。 美团长鹿团队与复旦大学最近联合发布了AgentEscapeBench,这是一个密室逃脱风格的工具推理评测基准。270个任务覆盖5个难度等级,核心测试是:在有向无环图(DAG)结构的工具依赖链上,Agent能否正确推断调用顺序、追踪逐步揭示的隐藏状态,并给出可验证答案。 实验结果揭示了耐人寻味的断层:最强模型在浅层依赖(难度5)下达到90%准确率,但深度升至25时骤降至60%。人类则从98.3%缓慢滑落至80%——这意味着当前LLM Agent在真正多步协作的工具调用场景中,仍存在明显的泛化短板。 论文将失败归因于三大能力退化:长程状态追踪、指令黏性以及中间结果传递。AgentEscapeBench支持完全自动化评测,整个社区可以快速迭代。 对于工程师而言,这个研究的现实意义很明确:当前Agent框架在处理长依赖链的复杂任务时,还不能可靠地替代人类,需要为它配备更精细的记忆管理机制来弥补这一短板。