投机解码：让 GPU 不再空转的 LLM 推理优化术

大模型生成 token 慢，不是因为算力不够，而是数据传输太慢。每次生成一个 token，GPU 都要把整个模型权重从显存读一遍——一个 70B 参数的模型每次要搬运上百 GB 数据，而真正做算术的时间却很短。这是 LLM 推理特有的内存带宽瓶颈：GPU 算力单元大部分时间在「等米下锅」。投机解码（Speculative Decoding）正是针对这个问题的经典解法：用一个小模型快速「猜」出多个后续 token，再由大模型一次验证全部猜对。验证通过，几个 token 同时落袋；验证失败，大模型从出错位置纠正——结果与直接跑大模型完全一致，但 token 生成效率大幅提升。 **从 2022 到 2026：从论文到生产** Google 早在 2022 年提出投机解码，但直到 2025-2026 年才真正进入主流生产环境。vLLM、SGLang、TensorRT-LLM 等主流推理框架现已将其作为内置优化。 **EAGLE-3：当前最成熟的方案** 投机解码的核心指标是「接受率」——小模型猜对的比例。EAGLE-3 是目前表现最突出的方法，它不像传统方案那样单独训练一个小模型，而是在目标大模型上附加轻量预测头，并融合多层特征提升精度。实测显示 EAGLE-3 可实现 3-6.5 倍加速，比前代 EAGLE-2 提升 20-40%。P-EAGLE 进一步优化，在大规模模型上额外提升 10-36%。接受率因任务差异显著：结构化代码、格式化文本等可预测内容，接受率可达 0.75-0.85；开放式创意写作则可能低于 0.5，此时投机解码反而可能帮倒忙。 **降本增效是核心价值** 对于企业级部署，投机解码的意义不只是加速，更是降本。接受率 0.8 左右时，每次大模型前向传播能产出约 4 个 token，等效吞吐量翻 3-4 倍。结合语义缓存做分层服务，投机解码负责处理缓存未命中的请求，两者协同效果更佳。当然它不是银弹：对于需要高度创意的任务，小模型猜不准反而增加开销。但对于当前多数生产工作负载——代码补全、结构化输出、API 响应——投机解码已是绕不开的基础优化。随着 EAGLE-4 等下一代方案逐步成熟，这一技术的适用范围还在持续扩大。