DiscoBench：搜得越多反而越错？首个聚焦"何时该向用户问清楚"的搜索 Agent 基准

当 LLM 搜索 Agent 反复抓取网页却仍给错答案时,病灶往往不在搜索,而在于它拒绝在用户查询模糊时主动澄清。腾讯 Hunyuan 与清华大学在 arXiv:2606.27669 联合推出 DiscoBench,用 211 个样本、463 处歧义实例和一台"用户模拟器",系统揭示了主流大模型在多轮深搜场景下的失败模式。实验覆盖 Gemini-3.1-Pro、Doubao-Seed-2.0-Pro、DeepSeek-V4-Pro、Claude-Opus-4.7 等主流系统,核心结论是主动澄清比反复检索更有效,而搜得更多甚至不如直接猜。