TokenSkip：通过思维链可控压缩提升LLM推理效率

大语言模型在执行复杂推理任务时，通常需要生成很长的思维链（Chain-of-Thought）来展示推理过程。然而，这些思维链往往包含大量冗余token，导致推理速度慢、计算成本高。 TokenSkip是EMNLP 2025提出的一种新方法，让LLM学会在思维链生成过程中选择性跳过不重要token，实现可控制的压缩。这一方法的洞察来自对思维链的实证分析：推理过程中，并非每个token都同等重要，模型实际上在关键决策点之间存在大量填充token。 TokenSkip在训练阶段先用原始模型生成完整思维链轨迹，然后按设定压缩比γ将思维链压缩到目标长度，同时通过学习在关键推理节点之间建立捷径。实验表明，即使将思维链压缩到原来的20%，模型推理质量也基本保持不变。从工程角度看，TokenSkip的价值在于它是一种训练时压缩——压缩逻辑直接嵌入模型权重，而非依赖推理时的外部算法。这意味着部署时不需要额外解码器或辅助模型，压缩效果随模型本身一起使用。对于需要高频率调用LLM进行推理的场景，TokenSkip类的技术值得关注。它指向一个更大的趋势：当模型的智能已经足够高时，下一个战场是效率——用更少的计算做同样的推理。