投石探路:推测解码如何让大模型推理提速3倍

大语言模型生成每一个 token,都需要一次完整的模型前向传播。70B 参数的模型生成 500 个 token,意味着 500 次串行的权重加载与计算。这是 LLM 推理的根本瓶颈——内存带宽而非算力限制了 GPU 利用率,GPU 大部分时间在等待数据搬运,而非真正在做计算。 Google 2022 年提出的推测解码(Speculative Decoding)正是解决这个问题的关键思路:用一个小模型做"投石问路",一次性生成多个候选 token,再由大模型并行验证。小模型速度虽快但能力有限,大模型则负责兜底——如果候选 token 符合其概率分布,就一并接受;如果不符,则在大模型采样点重新开始。 这个方案优雅之处在于数学保证:接受的 token 严格服从目标模型的真实分布,不损失任何生成质量。速度提升取决于接受率:接受率 80% 时,1 次大模型前向传播可产出 5 个 token;接受率跌至 40%,则只剩 1.5 个。 2026 年,推测解码已从学术论文走向生产级部署。vLLM、SGLang、TensorRT-LLM 相继将其纳入标准功能。更值得关注的是 UCSD 团队将 DFlash(一种扩散式推测解码方法)集成到 Google TPU 的 vLLM 推理框架中,在 TPU 上实现了 3 倍吞吐量提升。DFlash 的核心创新是用块扩散机制替代传统自回归采样,从而生成更高质量的候选 token,提升接受率。 对算力基础设施而言,推测解码的意义不只是加速——它改变了算力使用的经济学。当同样的 GPU 或 TPU 可以服务更多并发请求,推理成本随之下降,而这种下降会进一步传导到下游应用定价,推动长上下文和多轮对话场景的大规模落地。