"美团 LongCat 团队 6 月 25 日开源 VitaBench 2.0,定位为「首个真实生活场景下面向长期动态用户建模的智能体评测基准」。如果说 1.0 还在测\"一次外卖订单能不能搞定\",2.0 问的就是——**AI 能不能真的\"认识\"一个用户**。\n\n## 数据规模:覆盖 1,580 天的真实生活\n\nVitaBench 2.0 构建了 56 个真实用户、819 个任务、2,000+ 条动态偏好、66 个可执行工具;平均每个用户 2,093 条交互事件,跨度 1,580 天。换句话说,**这不再是一次性 prompt 评测,而是把 Agent 放进一段长期、碎片化、偏好还会变化的关系里**。配套 Hugging Face 数据集、arXiv 论文(2605.27141)已同步发布,并被 ICLR 2026 接收。\n\n## 关键发现:加记忆反而更糟\n\n最反直觉的结果是:**给前沿模型喂入用户历史交互记忆后,成绩普遍下滑**。即便 Claude Opus 4.6 在 Full Context 设置下 Avg@4 也只有 0.503,DeepSeek-V4-Pro 在非思考模式为 0.456;切换到 RAG / Agentic Memory 这些现实部署里更常见的记忆后端后,所有模型分数还会进一步掉。偏好缺失时模型还会硬猜不澄清——Claude 分数从 46.0 跌到 27.4。**长程个性化与主动服务(proactivity)仍是 SOTA LLM Agent 没跨过的硬关**。\n\n## 行业影响:Agent 的下一站在「时间维度」\n\n过去一年 Agent 评测焦点从单轮工具调用走向多步任务规划,VitaBench 2.0 把战线又拉长了一个量级:**真正的助理型 Agent 必须在数月甚至数年的时间跨度上累积和更新对用户的理解**。这意味着单纯把上下文窗口堆到 1M token 并不能解决问题——选择性记忆、抗噪检索、偏好漂移建模将成为新的工程化主战场。\n\n对想做 Agent 的团队来说,这套基准给出一个直接信号:**别再只盯 SWE-Bench / GAIA 那类工具调用榜单,VitaBench 2.0 这一关才更接近\"产品能不能上线\"的真实门槛**。开源版本(meituan-longcat/VitaBench-2.0)已开放,是时候让自家 Agent 接受\"长期用户\"考核了。\n"