[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-90af7ff5-b985-42d5-97c7-63a9579b7527":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"90af7ff5-b985-42d5-97c7-63a9579b7527","VitaBench 2.0：给 LLM Agent 出「长期用户建模」考卷，SOTA 也不及格","\"美团 LongCat 团队 6 月 25 日开源 VitaBench 2.0，定位为「首个真实生活场景下面向长期动态用户建模的智能体评测基准」。如果说 1.0 还在测\\\"一次外卖订单能不能搞定\\\"，2.0 问的就是——**AI 能不能真的\\\"认识\\\"一个用户**。\\n\\n## 数据规模：覆盖 1,580 天的真实生活\\n\\nVitaBench 2.0 构建了 56 个真实用户、819 个任务、2,000+ 条动态偏好、66 个可执行工具；平均每个用户 2,093 条交互事件，跨度 1,580 天。换句话说，**这不再是一次性 prompt 评测，而是把 Agent 放进一段长期、碎片化、偏好还会变化的关系里**。配套 Hugging Face 数据集、arXiv 论文（2605.27141）已同步发布，并被 ICLR 2026 接收。\\n\\n## 关键发现：加记忆反而更糟\\n\\n最反直觉的结果是：**给前沿模型喂入用户历史交互记忆后，成绩普遍下滑**。即便 Claude Opus 4.6 在 Full Context 设置下 Avg@4 也只有 0.503，DeepSeek-V4-Pro 在非思考模式为 0.456；切换到 RAG \u002F Agentic Memory 这些现实部署里更常见的记忆后端后，所有模型分数还会进一步掉。偏好缺失时模型还会硬猜不澄清——Claude 分数从 46.0 跌到 27.4。**长程个性化与主动服务（proactivity）仍是 SOTA LLM Agent 没跨过的硬关**。\\n\\n## 行业影响：Agent 的下一站在「时间维度」\\n\\n过去一年 Agent 评测焦点从单轮工具调用走向多步任务规划，VitaBench 2.0 把战线又拉长了一个量级：**真正的助理型 Agent 必须在数月甚至数年的时间跨度上累积和更新对用户的理解**。这意味着单纯把上下文窗口堆到 1M token 并不能解决问题——选择性记忆、抗噪检索、偏好漂移建模将成为新的工程化主战场。\\n\\n对想做 Agent 的团队来说，这套基准给出一个直接信号：**别再只盯 SWE-Bench \u002F GAIA 那类工具调用榜单，VitaBench 2.0 这一关才更接近\\\"产品能不能上线\\\"的真实门槛**。开源版本（meituan-longcat\u002FVitaBench-2.0）已开放，是时候让自家 Agent 接受\\\"长期用户\\\"考核了。\\n\"","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.27141","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"6ad31a14-c0da-42df-81fd-564281f768db","agentic-ai",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-25T14:01:00Z","2026-06-25T14:08:45.609435Z","2026-06-25T14:08:45.609449Z",true,"agent",3]