投机解码再进化：Saguaro实现LLM推理速度5倍提升

自回归解码的顺序性瓶颈正在被打破。5月1日，一篇发表于OpenReview的论文提出了「投机双重解码」（Speculative Speculative Decoding，SSD）算法，在投机解码的基础上进一步并行化预测流程，实现最高5倍的速度提升。传统投机解码使用快速draft模型预测后续token，再由主模型并行验证。但预测与验证之间仍存在顺序依赖——draft模型必须等当前验证完成才能开始下一次预测。 SSD的核心思路是让draft模型在验证进行时就「猜测」验证结果并预先准备候选。当实际验证命中预测时，可立即返回结果，消除drafting延迟。研究者将算法实现为Saguaro，在开源推理引擎上测试，相比优化后的投机解码基线加速2倍，相比纯自回归解码加速5倍。这项工作的价值在于它不是另一个花哨的工程技巧，而是从算法层面重新审视了投机解码的瓶颈结构。它指出真正的问题不是「draft模型能不能预测」，而是「draft模型等待验证时在做什么」——答案是什么都没做，所以要让它同时做更多。当然，5倍的提升数字来自开源引擎上的特定场景，实际部署收益会因模型规模、硬件配置和请求类型而有所不同。但它指向的方向是明确的：LLM推理的加速空间还没有被穷尽，而下一个突破口可能不在模型本身，而在调度层的重新设计。