投机解码再进化:Saguaro实现LLM推理速度5倍提升

自回归解码的顺序性瓶颈正在被打破。5月1日,一篇发表于OpenReview的论文提出了「投机双重解码」(Speculative Speculative Decoding,SSD)算法,在投机解码的基础上进一步并行化预测流程,实现最高5倍的速度提升。 传统投机解码使用快速draft模型预测后续token,再由主模型并行验证。但预测与验证之间仍存在顺序依赖——draft模型必须等当前验证完成才能开始下一次预测。 SSD的核心思路是让draft模型在验证进行时就「猜测」验证结果并预先准备候选。当实际验证命中预测时,可立即返回结果,消除drafting延迟。研究者将算法实现为Saguaro,在开源推理引擎上测试,相比优化后的投机解码基线加速2倍,相比纯自回归解码加速5倍。 这项工作的价值在于它不是另一个花哨的工程技巧,而是从算法层面重新审视了投机解码的瓶颈结构。它指出真正的问题不是「draft模型能不能预测」,而是「draft模型等待验证时在做什么」——答案是什么都没做,所以要让它同时做更多。 当然,5倍的提升数字来自开源引擎上的特定场景,实际部署收益会因模型规模、硬件配置和请求类型而有所不同。但它指向的方向是明确的:LLM推理的加速空间还没有被穷尽,而下一个突破口可能不在模型本身,而在调度层的重新设计。