大模型推理进入过思考时代:测试时计算的新问题

自OpenAI o1发布以来,测试时计算成了提升LLM能力的主流范式。但南京大学×百度等机构的最新研究揭示了一个关键悖论:**想太久反而会让模型答错。** 研究首次系统性地挑战了推理越长效果越好的假设。通过边际收益曲线分析,研究者发现随推理token增加收益递减显著。更关键的是过思考(Overthinking)现象——模型在加长推理链时会意外抛弃之前正确的中间答案,最终给出错误结论。 研究者还发现:**最优思考长度与题目难度高度相关**。简单问题在较低预算就达到负边际收益,而难题需要更长的推理链。这意味着均匀分配推理预算是一种次优策略。 研究提出的成本感知评估框架显示,在中等推理预算处停止推理,可大幅降低计算量同时保持相近准确率。换句话说,**少想一点,不仅省钱,效果可能还更好**。 当行业还在卷模型参数量时,一个更精细的问题已浮现:LLM需要学会知道什么时候该停止思考。这也将推动自适应推理预算分配、动态停止机制等工程优化方向。