投机解码:让 GPU 不再空转的 LLM 推理优化术

大模型生成 token 慢,不是因为算力不够,而是数据传输太慢。每次生成一个 token,GPU 都要把整个模型权重从显存读一遍——一个 70B 参数的模型每次要搬运上百 GB 数据,而真正做算术的时间却很短。这是 LLM 推理特有的内存带宽瓶颈:GPU 算力单元大部分时间在「等米下锅」。 投机解码(Speculative Decoding)正是针对这个问题的经典解法:用一个小模型快速「猜」出多个后续 token,再由大模型一次验证全部猜对。验证通过,几个 token 同时落袋;验证失败,大模型从出错位置纠正——结果与直接跑大模型完全一致,但 token 生成效率大幅提升。 **从 2022 到 2026:从论文到生产** Google 早在 2022 年提出投机解码,但直到 2025-2026 年才真正进入主流生产环境。vLLM、SGLang、TensorRT-LLM 等主流推理框架现已将其作为内置优化。 **EAGLE-3:当前最成熟的方案** 投机解码的核心指标是「接受率」——小模型猜对的比例。EAGLE-3 是目前表现最突出的方法,它不像传统方案那样单独训练一个小模型,而是在目标大模型上附加轻量预测头,并融合多层特征提升精度。实测显示 EAGLE-3 可实现 3-6.5 倍加速,比前代 EAGLE-2 提升 20-40%。P-EAGLE 进一步优化,在大规模模型上额外提升 10-36%。 接受率因任务差异显著:结构化代码、格式化文本等可预测内容,接受率可达 0.75-0.85;开放式创意写作则可能低于 0.5,此时投机解码反而可能帮倒忙。 **降本增效是核心价值** 对于企业级部署,投机解码的意义不只是加速,更是降本。接受率 0.8 左右时,每次大模型前向传播能产出约 4 个 token,等效吞吐量翻 3-4 倍。结合语义缓存做分层服务,投机解码负责处理缓存未命中的请求,两者协同效果更佳。 当然它不是银弹:对于需要高度创意的任务,小模型猜不准反而增加开销。但对于当前多数生产工作负载——代码补全、结构化输出、API 响应——投机解码已是绕不开的基础优化。随着 EAGLE-4 等下一代方案逐步成熟,这一技术的适用范围还在持续扩大。