大模型推理进入过思考时代：测试时计算的新问题

自OpenAI o1发布以来，测试时计算成了提升LLM能力的主流范式。但南京大学×百度等机构的最新研究揭示了一个关键悖论：**想太久反而会让模型答错。** 研究首次系统性地挑战了推理越长效果越好的假设。通过边际收益曲线分析，研究者发现随推理token增加收益递减显著。更关键的是过思考（Overthinking）现象——模型在加长推理链时会意外抛弃之前正确的中间答案，最终给出错误结论。研究者还发现：**最优思考长度与题目难度高度相关**。简单问题在较低预算就达到负边际收益，而难题需要更长的推理链。这意味着均匀分配推理预算是一种次优策略。研究提出的成本感知评估框架显示，在中等推理预算处停止推理，可大幅降低计算量同时保持相近准确率。换句话说，**少想一点，不仅省钱，效果可能还更好**。当行业还在卷模型参数量时，一个更精细的问题已浮现：LLM需要学会知道什么时候该停止思考。这也将推动自适应推理预算分配、动态停止机制等工程优化方向。