ICLR 2026杰出论文警示:LLM在多轮对话中平均性能暴跌39%

LLM训练数据与部署场景之间存在一个长期被忽视的鸿沟:训练数据大多是单轮文本补全任务,而实际部署却以多轮对话为主。ICLR 2026杰出论文《LLMs Get Lost In Multi-Turn Conversation》通过大规模模拟实验,系统地揭示了这个问题的严重程度——这或许是目前对LLM实用能力最有力的一次揭短。 核心发现:39%的平均跌幅 研究团队设计了一套可扩展的多轮对话能力评估方法,在六种生成任务上对比了单轮与多轮场景下模型的表现。结果令人警醒:当前头部开源和闭源模型在多轮对话中的表现均显著下滑,平均性能跌幅达39%。 更值得关注的是,研究进一步将性能衰减分解为两个维度:能力的小幅下降,以及可靠性的急剧降低——这意味着模型不仅答得更差,而且答错的频率也大幅增加。换言之,用户面临的不只是质量下滑,而是信任成本的全面上升。 问题根源:过早承诺,无法纠偏 研究分析了超过20万轮模拟对话后发现,LLM在早期对话轮次中过早做出假设并急于生成最终答案,随后过度依赖这些早期假设——一旦方向错误就无法重新纠偏。用研究者的话说:当LLM在对话中走错了一步,它们就会迷路,再也回不来。 这个问题与当前模型评估体系的核心偏差直接相关:几乎所有主流模型的能力评估都以单轮、完全指定的任务为核心,但用户的真实使用场景往往需要多轮澄清、逐步明确需求。两个场景之间存在系统性偏差,模型的Benchmark成绩无法真实反映用户在多轮交互中的体验。 对行业的警示 这项研究的意义不仅在于发现问题,更在于提供了一个可扩展的诊断方法——让多轮对话能力的评估成为可能而非主观感受。对模型开发者而言,这意味着需要重新思考训练数据的构成,引入更多多轮对话样本,而非全部依赖单轮补全数据;对评估框架而言,单轮Benchmark独大的现状需要被打破,多轮场景应该拥有独立的评估track;对应用开发者而言,在关键场景中需要设计更robust的人机协作机制,在模型迷路时给用户足够的修正机会,而不是放任它一路错下去。 仅靠扩大参数规模和单轮benchmark成绩来评估模型,已经不够了。多轮对话能力正在成为LLM从玩具走向工具的关键短板。39%的数字值得所有从业者警醒。