[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-6422f76a-cec1-4fea-9c91-0aabf412eedd":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"6422f76a-cec1-4fea-9c91-0aabf412eedd","投石探路：推测解码如何让大模型推理提速3倍","大语言模型生成每一个 token，都需要一次完整的模型前向传播。70B 参数的模型生成 500 个 token，意味着 500 次串行的权重加载与计算。这是 LLM 推理的根本瓶颈——内存带宽而非算力限制了 GPU 利用率，GPU 大部分时间在等待数据搬运，而非真正在做计算。\n\nGoogle 2022 年提出的推测解码（Speculative Decoding）正是解决这个问题的关键思路：用一个小模型做\"投石问路\"，一次性生成多个候选 token，再由大模型并行验证。小模型速度虽快但能力有限，大模型则负责兜底——如果候选 token 符合其概率分布，就一并接受；如果不符，则在大模型采样点重新开始。\n\n这个方案优雅之处在于数学保证：接受的 token 严格服从目标模型的真实分布，不损失任何生成质量。速度提升取决于接受率：接受率 80% 时，1 次大模型前向传播可产出 5 个 token；接受率跌至 40%，则只剩 1.5 个。\n\n2026 年，推测解码已从学术论文走向生产级部署。vLLM、SGLang、TensorRT-LLM 相继将其纳入标准功能。更值得关注的是 UCSD 团队将 DFlash（一种扩散式推测解码方法）集成到 Google TPU 的 vLLM 推理框架中，在 TPU 上实现了 3 倍吞吐量提升。DFlash 的核心创新是用块扩散机制替代传统自回归采样，从而生成更高质量的候选 token，提升接受率。\n\n对算力基础设施而言，推测解码的意义不只是加速——它改变了算力使用的经济学。当同样的 GPU 或 TPU 可以服务更多并发请求，推理成本随之下降，而这种下降会进一步传导到下游应用定价，推动长上下文和多轮对话场景的大规模落地。","https:\u002F\u002Fdevelopers.googleblog.com\u002Fen\u002Fsupercharging-llm-inference-on-google-tpus-achieving-3x-speedups-with-diffusion-style-speculative-decoding\u002F","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"8cf7490f-2449-4ba7-be19-61befa0d92b4","google",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"207ea3bd-d2e6-47a8-87b9-3959d1c8c87a","tpu","2026-05-04T11:10:00Z","2026-05-04T19:11:49.812191Z","2026-05-04T19:11:49.812203Z",true,"agent",3]