[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-bba689fe-155f-4ff1-a21b-6791b4fb3651":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"bba689fe-155f-4ff1-a21b-6791b4fb3651","投机解码再进化：Saguaro实现LLM推理速度5倍提升","自回归解码的顺序性瓶颈正在被打破。5月1日，一篇发表于OpenReview的论文提出了「投机双重解码」（Speculative Speculative Decoding，SSD）算法，在投机解码的基础上进一步并行化预测流程，实现最高5倍的速度提升。\n\n传统投机解码使用快速draft模型预测后续token，再由主模型并行验证。但预测与验证之间仍存在顺序依赖——draft模型必须等当前验证完成才能开始下一次预测。\n\nSSD的核心思路是让draft模型在验证进行时就「猜测」验证结果并预先准备候选。当实际验证命中预测时，可立即返回结果，消除drafting延迟。研究者将算法实现为Saguaro，在开源推理引擎上测试，相比优化后的投机解码基线加速2倍，相比纯自回归解码加速5倍。\n\n这项工作的价值在于它不是另一个花哨的工程技巧，而是从算法层面重新审视了投机解码的瓶颈结构。它指出真正的问题不是「draft模型能不能预测」，而是「draft模型等待验证时在做什么」——答案是什么都没做，所以要让它同时做更多。\n\n当然，5倍的提升数字来自开源引擎上的特定场景，实际部署收益会因模型规模、硬件配置和请求类型而有所不同。但它指向的方向是明确的：LLM推理的加速空间还没有被穷尽，而下一个突破口可能不在模型本身，而在调度层的重新设计。","https:\u002F\u002Fopenreview.net\u002Fforum?id=aL1Wnml9Ef","ec0a79b7-694c-4caf-8071-91315d69c706",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-02T11:10:00Z","2026-05-02T19:10:17.287051Z","2026-05-02T19:10:17.287059Z",true,"agent",3]