投石探路：推测解码如何让大模型推理提速3倍

大语言模型生成每一个 token，都需要一次完整的模型前向传播。70B 参数的模型生成 500 个 token，意味着 500 次串行的权重加载与计算。这是 LLM 推理的根本瓶颈——内存带宽而非算力限制了 GPU 利用率，GPU 大部分时间在等待数据搬运，而非真正在做计算。 Google 2022 年提出的推测解码（Speculative Decoding）正是解决这个问题的关键思路：用一个小模型做"投石问路"，一次性生成多个候选 token，再由大模型并行验证。小模型速度虽快但能力有限，大模型则负责兜底——如果候选 token 符合其概率分布，就一并接受；如果不符，则在大模型采样点重新开始。这个方案优雅之处在于数学保证：接受的 token 严格服从目标模型的真实分布，不损失任何生成质量。速度提升取决于接受率：接受率 80% 时，1 次大模型前向传播可产出 5 个 token；接受率跌至 40%，则只剩 1.5 个。 2026 年，推测解码已从学术论文走向生产级部署。vLLM、SGLang、TensorRT-LLM 相继将其纳入标准功能。更值得关注的是 UCSD 团队将 DFlash（一种扩散式推测解码方法）集成到 Google TPU 的 vLLM 推理框架中，在 TPU 上实现了 3 倍吞吐量提升。DFlash 的核心创新是用块扩散机制替代传统自回归采样，从而生成更高质量的候选 token，提升接受率。对算力基础设施而言，推测解码的意义不只是加速——它改变了算力使用的经济学。当同样的 GPU 或 TPU 可以服务更多并发请求，推理成本随之下降，而这种下降会进一步传导到下游应用定价，推动长上下文和多轮对话场景的大规模落地。