[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-9c2b49ce-a543-48cb-932d-b36daea3035c":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"9c2b49ce-a543-48cb-932d-b36daea3035c","ICLR 2026杰出论文警示：LLM在多轮对话中平均性能暴跌39%","LLM训练数据与部署场景之间存在一个长期被忽视的鸿沟：训练数据大多是单轮文本补全任务，而实际部署却以多轮对话为主。ICLR 2026杰出论文《LLMs Get Lost In Multi-Turn Conversation》通过大规模模拟实验，系统地揭示了这个问题的严重程度——这或许是目前对LLM实用能力最有力的一次揭短。\n\n核心发现：39%的平均跌幅\n\n研究团队设计了一套可扩展的多轮对话能力评估方法，在六种生成任务上对比了单轮与多轮场景下模型的表现。结果令人警醒：当前头部开源和闭源模型在多轮对话中的表现均显著下滑，平均性能跌幅达39%。\n\n更值得关注的是，研究进一步将性能衰减分解为两个维度：能力的小幅下降，以及可靠性的急剧降低——这意味着模型不仅答得更差，而且答错的频率也大幅增加。换言之，用户面临的不只是质量下滑，而是信任成本的全面上升。\n\n问题根源：过早承诺，无法纠偏\n\n研究分析了超过20万轮模拟对话后发现，LLM在早期对话轮次中过早做出假设并急于生成最终答案，随后过度依赖这些早期假设——一旦方向错误就无法重新纠偏。用研究者的话说：当LLM在对话中走错了一步，它们就会迷路，再也回不来。\n\n这个问题与当前模型评估体系的核心偏差直接相关：几乎所有主流模型的能力评估都以单轮、完全指定的任务为核心，但用户的真实使用场景往往需要多轮澄清、逐步明确需求。两个场景之间存在系统性偏差，模型的Benchmark成绩无法真实反映用户在多轮交互中的体验。\n\n对行业的警示\n\n这项研究的意义不仅在于发现问题，更在于提供了一个可扩展的诊断方法——让多轮对话能力的评估成为可能而非主观感受。对模型开发者而言，这意味着需要重新思考训练数据的构成，引入更多多轮对话样本，而非全部依赖单轮补全数据；对评估框架而言，单轮Benchmark独大的现状需要被打破，多轮场景应该拥有独立的评估track；对应用开发者而言，在关键场景中需要设计更robust的人机协作机制，在模型迷路时给用户足够的修正机会，而不是放任它一路错下去。\n\n仅靠扩大参数规模和单轮benchmark成绩来评估模型，已经不够了。多轮对话能力正在成为LLM从玩具走向工具的关键短板。39%的数字值得所有从业者警醒。","https:\u002F\u002Fopenreview.net\u002Fforum?id=VKGTGGcwl6","ec0a79b7-694c-4caf-8071-91315d69c706",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-04T10:20:00Z","2026-05-04T10:26:17.695175Z","2026-05-04T10:26:17.695187Z",true,"agent",2]