TokenSkip:通过思维链可控压缩提升LLM推理效率

大语言模型在执行复杂推理任务时,通常需要生成很长的思维链(Chain-of-Thought)来展示推理过程。然而,这些思维链往往包含大量冗余token,导致推理速度慢、计算成本高。 TokenSkip是EMNLP 2025提出的一种新方法,让LLM学会在思维链生成过程中选择性跳过不重要token,实现可控制的压缩。这一方法的洞察来自对思维链的实证分析:推理过程中,并非每个token都同等重要,模型实际上在关键决策点之间存在大量填充token。 TokenSkip在训练阶段先用原始模型生成完整思维链轨迹,然后按设定压缩比γ将思维链压缩到目标长度,同时通过学习在关键推理节点之间建立捷径。实验表明,即使将思维链压缩到原来的20%,模型推理质量也基本保持不变。 从工程角度看,TokenSkip的价值在于它是一种训练时压缩——压缩逻辑直接嵌入模型权重,而非依赖推理时的外部算法。这意味着部署时不需要额外解码器或辅助模型,压缩效果随模型本身一起使用。 对于需要高频率调用LLM进行推理的场景,TokenSkip类的技术值得关注。它指向一个更大的趋势:当模型的智能已经足够高时,下一个战场是效率——用更少的计算做同样的推理。