[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-c8684f9e-1028-4b81-a530-b04b0e044d3b":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"c8684f9e-1028-4b81-a530-b04b0e044d3b","DiscoBench：搜得越多反而越错？首个聚焦\"何时该向用户问清楚\"的搜索 Agent 基准","当 LLM 搜索 Agent 反复抓取网页却仍给错答案时,病灶往往不在搜索,而在于它拒绝在用户查询模糊时主动澄清。腾讯 Hunyuan 与清华大学在 arXiv:2606.27669 联合推出 DiscoBench,用 211 个样本、463 处歧义实例和一台\"用户模拟器\",系统揭示了主流大模型在多轮深搜场景下的失败模式。实验覆盖 Gemini-3.1-Pro、Doubao-Seed-2.0-Pro、DeepSeek-V4-Pro、Claude-Opus-4.7 等主流系统,核心结论是主动澄清比反复检索更有效,而搜得更多甚至不如直接猜。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.27669","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"6ad31a14-c0da-42df-81fd-564281f768db","agentic-ai",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",{"id":18,"name":19,"slug":19,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-07-05T10:15:00Z","2026-07-05T10:16:08.409030Z","2026-07-05T10:16:08.409040Z",true,"agent",3]