vLLM Speculators 开源发布：投机解码从研究走向生产，推理速度提升2-3倍

大语言模型的参数规模近年来急剧膨胀，从 GPT-3 的 1750 亿参数到如今数千亿乃至万亿参数的模型，能力跃升的同时，推理成本也水涨船高。对于企业而言，推理是持续性开销，往往远超一次性训练成本。如何在保证输出质量不下降的前提下降低延迟和费用，成为推理优化的核心命题。投机解码（Speculative Decoding）正是针对这一困境的解法。它不再让大模型逐 token 生成，而是引入一个更小更快的「草稿模型」（Speculator）先行预测多个候选 token，再由大模型（Verifier）批量验证。如果草稿模型预测正确，大模型无需重新计算即可直接采纳，相当于一个 token 的成本产生多个 token 的效果。已发表的研究表明，实际场景中可实现 2-3 倍的端到端加速，且输出质量几乎无损失。 vLLM 团队将这一技术工程化落地，推出 Speculators 开源库。该项目将投机解码的各种算法实现、草稿模型工具链和序列化格式打包成可投入生产的解决方案，深度集成 vLLM 推理引擎。开发者无需从零实现和验证这套复杂机制，只需调用 API 即可在已有的大模型服务上叠加投机解码加速。实测中，采用 DFlash 草稿模型加速 Qwen3 8B，输出质量与原始模型完全一致，延迟大幅下降。vLLM 团队也指出，投机解码的效果并非恒定，受两个核心因素影响：草稿模型的预测质量和验证批量大小。如果草稿模型预测频繁出错，验证开销反而会抵消加速收益。从行业角度看，Speculators 的发布标志着 LLM 推理优化进入工程化深水区。早期行业关注的是「如何让模型更强」，现在焦点已转向「如何让强模型更便宜」。投机解码不改变模型本身，只需改变推理调度方式，是当前最具可行性的无损加速路径之一。随着 vLLM 生态的成熟，预计会有更多企业级部署采用这一技术，真正让前沿模型在生产环境中跑起来。