AgentEscapeBench：美团+复旦推出工具推理评测新基准，揭示大模型Agent深层依赖短板

当大模型Agent开始帮你自动化复杂工作流，业界一直缺少一个真正能考验它们深度推理能力的评测标准。大多数benchmark考的都是局部任务，对多步依赖和长程状态追踪几乎无法量化。美团长鹿团队与复旦大学最近联合发布了AgentEscapeBench，这是一个密室逃脱风格的工具推理评测基准。270个任务覆盖5个难度等级，核心测试是：在有向无环图（DAG）结构的工具依赖链上，Agent能否正确推断调用顺序、追踪逐步揭示的隐藏状态，并给出可验证答案。实验结果揭示了耐人寻味的断层：最强模型在浅层依赖（难度5）下达到90%准确率，但深度升至25时骤降至60%。人类则从98.3%缓慢滑落至80%——这意味着当前LLM Agent在真正多步协作的工具调用场景中，仍存在明显的泛化短板。论文将失败归因于三大能力退化：长程状态追踪、指令黏性以及中间结果传递。AgentEscapeBench支持完全自动化评测，整个社区可以快速迭代。对于工程师而言，这个研究的现实意义很明确：当前Agent框架在处理长依赖链的复杂任务时，还不能可靠地替代人类，需要为它配备更精细的记忆管理机制来弥补这一短板。