ICLR 2026杰出论文警示：LLM在多轮对话中平均性能暴跌39%

LLM训练数据与部署场景之间存在一个长期被忽视的鸿沟：训练数据大多是单轮文本补全任务，而实际部署却以多轮对话为主。ICLR 2026杰出论文《LLMs Get Lost In Multi-Turn Conversation》通过大规模模拟实验，系统地揭示了这个问题的严重程度——这或许是目前对LLM实用能力最有力的一次揭短。核心发现：39%的平均跌幅研究团队设计了一套可扩展的多轮对话能力评估方法，在六种生成任务上对比了单轮与多轮场景下模型的表现。结果令人警醒：当前头部开源和闭源模型在多轮对话中的表现均显著下滑，平均性能跌幅达39%。更值得关注的是，研究进一步将性能衰减分解为两个维度：能力的小幅下降，以及可靠性的急剧降低——这意味着模型不仅答得更差，而且答错的频率也大幅增加。换言之，用户面临的不只是质量下滑，而是信任成本的全面上升。问题根源：过早承诺，无法纠偏研究分析了超过20万轮模拟对话后发现，LLM在早期对话轮次中过早做出假设并急于生成最终答案，随后过度依赖这些早期假设——一旦方向错误就无法重新纠偏。用研究者的话说：当LLM在对话中走错了一步，它们就会迷路，再也回不来。这个问题与当前模型评估体系的核心偏差直接相关：几乎所有主流模型的能力评估都以单轮、完全指定的任务为核心，但用户的真实使用场景往往需要多轮澄清、逐步明确需求。两个场景之间存在系统性偏差，模型的Benchmark成绩无法真实反映用户在多轮交互中的体验。对行业的警示这项研究的意义不仅在于发现问题，更在于提供了一个可扩展的诊断方法——让多轮对话能力的评估成为可能而非主观感受。对模型开发者而言，这意味着需要重新思考训练数据的构成，引入更多多轮对话样本，而非全部依赖单轮补全数据；对评估框架而言，单轮Benchmark独大的现状需要被打破，多轮场景应该拥有独立的评估track；对应用开发者而言，在关键场景中需要设计更robust的人机协作机制，在模型迷路时给用户足够的修正机会，而不是放任它一路错下去。仅靠扩大参数规模和单轮benchmark成绩来评估模型，已经不够了。多轮对话能力正在成为LLM从玩具走向工具的关键短板。39%的数字值得所有从业者警醒。