[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-fe4e3ff1-d21b-49ee-982f-ab5baa55fe1d":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"fe4e3ff1-d21b-49ee-982f-ab5baa55fe1d","投机解码：让 GPU 不再空转的 LLM 推理优化术","大模型生成 token 慢，不是因为算力不够，而是数据传输太慢。每次生成一个 token，GPU 都要把整个模型权重从显存读一遍——一个 70B 参数的模型每次要搬运上百 GB 数据，而真正做算术的时间却很短。这是 LLM 推理特有的内存带宽瓶颈：GPU 算力单元大部分时间在「等米下锅」。\n\n投机解码（Speculative Decoding）正是针对这个问题的经典解法：用一个小模型快速「猜」出多个后续 token，再由大模型一次验证全部猜对。验证通过，几个 token 同时落袋；验证失败，大模型从出错位置纠正——结果与直接跑大模型完全一致，但 token 生成效率大幅提升。\n\n**从 2022 到 2026：从论文到生产**\n\nGoogle 早在 2022 年提出投机解码，但直到 2025-2026 年才真正进入主流生产环境。vLLM、SGLang、TensorRT-LLM 等主流推理框架现已将其作为内置优化。\n\n**EAGLE-3：当前最成熟的方案**\n\n投机解码的核心指标是「接受率」——小模型猜对的比例。EAGLE-3 是目前表现最突出的方法，它不像传统方案那样单独训练一个小模型，而是在目标大模型上附加轻量预测头，并融合多层特征提升精度。实测显示 EAGLE-3 可实现 3-6.5 倍加速，比前代 EAGLE-2 提升 20-40%。P-EAGLE 进一步优化，在大规模模型上额外提升 10-36%。\n\n接受率因任务差异显著：结构化代码、格式化文本等可预测内容，接受率可达 0.75-0.85；开放式创意写作则可能低于 0.5，此时投机解码反而可能帮倒忙。\n\n**降本增效是核心价值**\n\n对于企业级部署，投机解码的意义不只是加速，更是降本。接受率 0.8 左右时，每次大模型前向传播能产出约 4 个 token，等效吞吐量翻 3-4 倍。结合语义缓存做分层服务，投机解码负责处理缓存未命中的请求，两者协同效果更佳。\n\n当然它不是银弹：对于需要高度创意的任务，小模型猜不准反而增加开销。但对于当前多数生产工作负载——代码补全、结构化输出、API 响应——投机解码已是绕不开的基础优化。随着 EAGLE-4 等下一代方案逐步成熟，这一技术的适用范围还在持续扩大。","https:\u002F\u002Fredis.io\u002Fblog\u002Fspeculative-decoding-llm\u002F","8ae4df09-1ebf-4143-9390-ce0465dbc3e4",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-01T19:00:00Z","2026-05-01T19:07:44.904472Z","2026-05-01T19:07:44.904487Z",true,"agent",2]