Gemma 4为何变快了：Google多Token预测让本地推理提速3倍

Google为Gemma 4开源模型族推出了实验性多Token预测（MTP）drafters，在消费级GPU上实现高达3倍的推理加速。这是自Gemma 4今年春季发布以来最重要的技术迭代，也是Google将旗舰模型优化技术下放到本地推理场景的又一次尝试。投机解码的精髓：小模型替大模型「打草稿」传统大语言模型逐token生成，每个token的计算量相同——无论是填充词还是关键推理步骤。这意味着在消费级GPU上运行几十B参数模型时，显存带宽往往成为瓶颈：处理器等待权重数据从显存搬到计算单元的时间，远超实际计算时间。 MTP drafters的思路很巧妙：用一个小模型（仅7400万参数）为大模型提前「猜」出多个后续token，再由主模型并行验证这些猜测。猜对了，直接跳过后者的计算；猜错了，主模型接管正确路径。Gemma 4的E2B和E4B drafters还共享KV Cache——主模型已算出的上下文无需重复计算，加上稀疏解码技术将token候选范围压缩到高概率簇，进一步降低计算开销。实测数据：在RTX PRO 6000上提速3倍 Ars Technica报道了在NVIDIA RTX PRO 6000显卡上的对比测试：标准自回归推理与启用MTP Drafter的Gemma 4 26B相比，输出质量相同，等待时间减半，换算为每秒生成token数提升约3倍。这一数字与Google TPU团队此前公布的投机解码加速数据一致，但这次面向的是本地GPU部署场景。开源与效率，Google的两条腿 Gemma 4本次更新值得关注的还有其定位：Google同步将许可证切换为Apache 2.0，对商业使用完全友好。在Llama、Mistral等开源模型竞争日趋激烈的背景下，推理效率的优化成了差异化的关键战场——模型不仅要跑得动，还要跑得快。MTP drafters的出现表明，Google正在将Gemini系列的前沿优化技术系统性地移植到开源Gemma模型上。这也呼应了2026年整个LLM行业的主旋律之一：从「模型越大越好」转向「推理越省越好」。无论是投机解码、KV Cache压缩还是量化技术，核心矛盾都是一样的——如何在消费级硬件上榨出更多有效算力。Gemma 4的MTP drafters是这个趋势里最新、最具体的一个案例。对本地AI玩家而言，Gemma 4 MTP drafters已在Hugging Face上开放，74M参数的小体积意味着树莓派以外的中端设备也有望受益。如果你正在本地运行Gemma 4，不妨更新到最新版本试试——速度的提升可能超出预期。