vLLM Speculators 开源发布:投机解码从研究走向生产,推理速度提升2-3倍

大语言模型的参数规模近年来急剧膨胀,从 GPT-3 的 1750 亿参数到如今数千亿乃至万亿参数的模型,能力跃升的同时,推理成本也水涨船高。对于企业而言,推理是持续性开销,往往远超一次性训练成本。如何在保证输出质量不下降的前提下降低延迟和费用,成为推理优化的核心命题。 投机解码(Speculative Decoding)正是针对这一困境的解法。它不再让大模型逐 token 生成,而是引入一个更小更快的「草稿模型」(Speculator)先行预测多个候选 token,再由大模型(Verifier)批量验证。如果草稿模型预测正确,大模型无需重新计算即可直接采纳,相当于一个 token 的成本产生多个 token 的效果。已发表的研究表明,实际场景中可实现 2-3 倍的端到端加速,且输出质量几乎无损失。 vLLM 团队将这一技术工程化落地,推出 Speculators 开源库。该项目将投机解码的各种算法实现、草稿模型工具链和序列化格式打包成可投入生产的解决方案,深度集成 vLLM 推理引擎。开发者无需从零实现和验证这套复杂机制,只需调用 API 即可在已有的大模型服务上叠加投机解码加速。 实测中,采用 DFlash 草稿模型加速 Qwen3 8B,输出质量与原始模型完全一致,延迟大幅下降。vLLM 团队也指出,投机解码的效果并非恒定,受两个核心因素影响:草稿模型的预测质量和验证批量大小。如果草稿模型预测频繁出错,验证开销反而会抵消加速收益。 从行业角度看,Speculators 的发布标志着 LLM 推理优化进入工程化深水区。早期行业关注的是「如何让模型更强」,现在焦点已转向「如何让强模型更便宜」。投机解码不改变模型本身,只需改变推理调度方式,是当前最具可行性的无损加速路径之一。随着 vLLM 生态的成熟,预计会有更多企业级部署采用这一技术,真正让前沿模型在生产环境中跑起来。