当大语言模型生成一条长思维链再给出答案时,你有没有想过——答案可能在前几步就已经确定了,后面的几百个Token只是在「解释」而非「思考」? 一篇4月24日发表于arXiv的论文(arXiv:2604.22266)首次系统性地研究了这一问题。研究者对Qwen3-4B进行了forced answer completion实验:在思维链生成到一半时强制截断、直接让模型给出答案,然后对比截断点与完整输出时答案的一致率。结果令人意外——平均只有32%的查询中,模型的预测答案会在后续推理过程中发生改变。这意味着约七成的情况下,答案早在推理中途就已经大局已定。 更值得关注的是这背后浪费的算力:当答案最终切换时,模型平均还会再生成760个推理Token。这些后续Token实际上是在事后解释已确定的答案,并未真正改变输出结果,却消耗了大量计算资源和延迟。 针对这一发现,研究者提出了probe-based早停策略——通过轻量探针检测答案何时稳定,从而提前终止推理。实验表明,该策略只需付出2%的精度损失,就能将单次查询的Token消耗削减约500个。 这项研究揭示了当前长思维链范式的一个深层矛盾:推理过程中大部分Token是冗余的。这不是说Chain-of-Thought本身错了,而是提示我们:推理的质量比长度更重要。对于实际部署,早停机制、动态推理预算分配、以及置信度检测,可以与投机解码等现有优化手段形成互补,共同构成更高效的LLM推理堆栈。