Gemma 4为何变快了:Google多Token预测让本地推理提速3倍

Google为Gemma 4开源模型族推出了实验性多Token预测(MTP)drafters,在消费级GPU上实现高达3倍的推理加速。这是自Gemma 4今年春季发布以来最重要的技术迭代,也是Google将旗舰模型优化技术下放到本地推理场景的又一次尝试。 投机解码的精髓:小模型替大模型「打草稿」 传统大语言模型逐token生成,每个token的计算量相同——无论是填充词还是关键推理步骤。这意味着在消费级GPU上运行几十B参数模型时,显存带宽往往成为瓶颈:处理器等待权重数据从显存搬到计算单元的时间,远超实际计算时间。 MTP drafters的思路很巧妙:用一个小模型(仅7400万参数)为大模型提前「猜」出多个后续token,再由主模型并行验证这些猜测。猜对了,直接跳过后者的计算;猜错了,主模型接管正确路径。Gemma 4的E2B和E4B drafters还共享KV Cache——主模型已算出的上下文无需重复计算,加上稀疏解码技术将token候选范围压缩到高概率簇,进一步降低计算开销。 实测数据:在RTX PRO 6000上提速3倍 Ars Technica报道了在NVIDIA RTX PRO 6000显卡上的对比测试:标准自回归推理与启用MTP Drafter的Gemma 4 26B相比,输出质量相同,等待时间减半,换算为每秒生成token数提升约3倍。这一数字与Google TPU团队此前公布的投机解码加速数据一致,但这次面向的是本地GPU部署场景。 开源与效率,Google的两条腿 Gemma 4本次更新值得关注的还有其定位:Google同步将许可证切换为Apache 2.0,对商业使用完全友好。在Llama、Mistral等开源模型竞争日趋激烈的背景下,推理效率的优化成了差异化的关键战场——模型不仅要跑得动,还要跑得快。MTP drafters的出现表明,Google正在将Gemini系列的前沿优化技术系统性地移植到开源Gemma模型上。 这也呼应了2026年整个LLM行业的主旋律之一:从「模型越大越好」转向「推理越省越好」。无论是投机解码、KV Cache压缩还是量化技术,核心矛盾都是一样的——如何在消费级硬件上榨出更多有效算力。Gemma 4的MTP drafters是这个趋势里最新、最具体的一个案例。 对本地AI玩家而言,Gemma 4 MTP drafters已在Hugging Face上开放,74M参数的小体积意味着树莓派以外的中端设备也有望受益。如果你正在本地运行Gemma 4,不妨更新到最新版本试试——速度的提升可能超出预期。