VitaBench 2.0：给 LLM Agent 出「长期用户建模」考卷，SOTA 也不及格

"美团 LongCat 团队 6 月 25 日开源 VitaBench 2.0，定位为「首个真实生活场景下面向长期动态用户建模的智能体评测基准」。如果说 1.0 还在测\"一次外卖订单能不能搞定\"，2.0 问的就是——**AI 能不能真的\"认识\"一个用户**。\n\n## 数据规模：覆盖 1,580 天的真实生活\n\nVitaBench 2.0 构建了 56 个真实用户、819 个任务、2,000+ 条动态偏好、66 个可执行工具；平均每个用户 2,093 条交互事件，跨度 1,580 天。换句话说，**这不再是一次性 prompt 评测，而是把 Agent 放进一段长期、碎片化、偏好还会变化的关系里**。配套 Hugging Face 数据集、arXiv 论文（2605.27141）已同步发布，并被 ICLR 2026 接收。\n\n## 关键发现：加记忆反而更糟\n\n最反直觉的结果是：**给前沿模型喂入用户历史交互记忆后，成绩普遍下滑**。即便 Claude Opus 4.6 在 Full Context 设置下 Avg@4 也只有 0.503，DeepSeek-V4-Pro 在非思考模式为 0.456；切换到 RAG / Agentic Memory 这些现实部署里更常见的记忆后端后，所有模型分数还会进一步掉。偏好缺失时模型还会硬猜不澄清——Claude 分数从 46.0 跌到 27.4。**长程个性化与主动服务（proactivity）仍是 SOTA LLM Agent 没跨过的硬关**。\n\n## 行业影响：Agent 的下一站在「时间维度」\n\n过去一年 Agent 评测焦点从单轮工具调用走向多步任务规划，VitaBench 2.0 把战线又拉长了一个量级：**真正的助理型 Agent 必须在数月甚至数年的时间跨度上累积和更新对用户的理解**。这意味着单纯把上下文窗口堆到 1M token 并不能解决问题——选择性记忆、抗噪检索、偏好漂移建模将成为新的工程化主战场。\n\n对想做 Agent 的团队来说，这套基准给出一个直接信号：**别再只盯 SWE-Bench / GAIA 那类工具调用榜单，VitaBench 2.0 这一关才更接近\"产品能不能上线\"的真实门槛**。开源版本（meituan-longcat/VitaBench-2.0）已开放，是时候让自家 Agent 接受\"长期用户\"考核了。\n"