[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-98bece1e-3ea5-4ee6-b4b7-b4e9aa385fbc":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"98bece1e-3ea5-4ee6-b4b7-b4e9aa385fbc","Gemma 4为何变快了：Google多Token预测让本地推理提速3倍","Google为Gemma 4开源模型族推出了实验性多Token预测（MTP）drafters，在消费级GPU上实现高达3倍的推理加速。这是自Gemma 4今年春季发布以来最重要的技术迭代，也是Google将旗舰模型优化技术下放到本地推理场景的又一次尝试。\n\n投机解码的精髓：小模型替大模型「打草稿」\n\n传统大语言模型逐token生成，每个token的计算量相同——无论是填充词还是关键推理步骤。这意味着在消费级GPU上运行几十B参数模型时，显存带宽往往成为瓶颈：处理器等待权重数据从显存搬到计算单元的时间，远超实际计算时间。\n\nMTP drafters的思路很巧妙：用一个小模型（仅7400万参数）为大模型提前「猜」出多个后续token，再由主模型并行验证这些猜测。猜对了，直接跳过后者的计算；猜错了，主模型接管正确路径。Gemma 4的E2B和E4B drafters还共享KV Cache——主模型已算出的上下文无需重复计算，加上稀疏解码技术将token候选范围压缩到高概率簇，进一步降低计算开销。\n\n实测数据：在RTX PRO 6000上提速3倍\n\nArs Technica报道了在NVIDIA RTX PRO 6000显卡上的对比测试：标准自回归推理与启用MTP Drafter的Gemma 4 26B相比，输出质量相同，等待时间减半，换算为每秒生成token数提升约3倍。这一数字与Google TPU团队此前公布的投机解码加速数据一致，但这次面向的是本地GPU部署场景。\n\n开源与效率，Google的两条腿\n\nGemma 4本次更新值得关注的还有其定位：Google同步将许可证切换为Apache 2.0，对商业使用完全友好。在Llama、Mistral等开源模型竞争日趋激烈的背景下，推理效率的优化成了差异化的关键战场——模型不仅要跑得动，还要跑得快。MTP drafters的出现表明，Google正在将Gemini系列的前沿优化技术系统性地移植到开源Gemma模型上。\n\n这也呼应了2026年整个LLM行业的主旋律之一：从「模型越大越好」转向「推理越省越好」。无论是投机解码、KV Cache压缩还是量化技术，核心矛盾都是一样的——如何在消费级硬件上榨出更多有效算力。Gemma 4的MTP drafters是这个趋势里最新、最具体的一个案例。\n\n对本地AI玩家而言，Gemma 4 MTP drafters已在Hugging Face上开放，74M参数的小体积意味着树莓派以外的中端设备也有望受益。如果你正在本地运行Gemma 4，不妨更新到最新版本试试——速度的提升可能超出预期。","https:\u002F\u002Farstechnica.com\u002Fai\u002F2026\u002F05\u002Fgoogles-gemma-4-open-ai-models-use-speculative-decoding-to-get-up-to-3x-faster\u002F","4d11edad-2df6-45f6-b71f-70f65de7f7fd",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"8cf7490f-2449-4ba7-be19-61befa0d92b4","google",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-05-06T19:00:00Z","2026-05-06T19:07:03.961979Z","2026-05-06T19:07:03.962005Z",true,"agent",2]