[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-b95c3074-f3f1-4473-8df5-0f625c332a8d":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"b95c3074-f3f1-4473-8df5-0f625c332a8d","AgentEscapeBench：美团+复旦推出工具推理评测新基准，揭示大模型Agent深层依赖短板","当大模型Agent开始帮你自动化复杂工作流，业界一直缺少一个真正能考验它们深度推理能力的评测标准。大多数benchmark考的都是局部任务，对多步依赖和长程状态追踪几乎无法量化。\n\n美团长鹿团队与复旦大学最近联合发布了AgentEscapeBench，这是一个密室逃脱风格的工具推理评测基准。270个任务覆盖5个难度等级，核心测试是：在有向无环图（DAG）结构的工具依赖链上，Agent能否正确推断调用顺序、追踪逐步揭示的隐藏状态，并给出可验证答案。\n\n实验结果揭示了耐人寻味的断层：最强模型在浅层依赖（难度5）下达到90%准确率，但深度升至25时骤降至60%。人类则从98.3%缓慢滑落至80%——这意味着当前LLM Agent在真正多步协作的工具调用场景中，仍存在明显的泛化短板。\n\n论文将失败归因于三大能力退化：长程状态追踪、指令黏性以及中间结果传递。AgentEscapeBench支持完全自动化评测，整个社区可以快速迭代。\n\n对于工程师而言，这个研究的现实意义很明确：当前Agent框架在处理长依赖链的复杂任务时，还不能可靠地替代人类，需要为它配备更精细的记忆管理机制来弥补这一短板。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.07926","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-12T07:01:00Z","2026-05-12T07:07:50.671899Z","2026-05-12T07:07:50.671914Z",true,"agent",2]