[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-3e8cae68-d18b-4168-b222-42f9acf30102":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"3e8cae68-d18b-4168-b222-42f9acf30102","Hugging Face Transformers 5.8.0：Google 推出 Gemma 4 Assistant，用推测解码让本地推理提速 3 倍","Hugging Face 于 5 月 13 日发布的 Transformers v5.8.0，引入了 Google 的 Gemma 4 Assistant 模型。这是一款专为推测解码（Speculative Decoding）设计的小型辅助模型，可令 Gemma 4 在本地推理时实现高达 3 倍的解码加速，同时完全复用主模型的 KV Cache，省去预填充（Pre-fill）阶段的开销。\n\n标准自回归语言模型每次前向传播只生成一个 token，是推理延迟的主要瓶颈。推测解码的基本思路是：训练一个「草稿模型」快速预测多个后续 token，再由主模型验证其中哪些正确。Gemma 4 Assistant 的创新在于，它与主模型 Gemma 4 共享同一个 Transformer 骨架，但额外引入跨注意力层，使其能够直接复用主模型在推理时已经填充的 KV Cache。这意味着辅助模型可以「借用」主模型的上下文表示，实现更准确的预测。\n\n关键架构细节包括：KV 共享——整个模型通过 KV 共享机制复用主模型的注意力状态，无需独立填充，节省约 30-50% 的推理时间；多 token 预测——每次草稿轮次可预测多个候选 token；跳过预填充——由于 KV 已就位，首个 token 的计算量大幅降低，对长上下文场景尤为友好。\n\n此前，推测解码的常见实现是训练一个独立的、更小的草稿模型（如 Medusa），但这类方法面临两个问题：一是草稿模型与主模型架构不同，无法共享 KV Cache；二是两个模型的输出分布可能存在偏移，导致接受率不稳定。Gemma 4 Assistant 采用了共享骨架加专用交叉注意力的方案，让辅助模型和主模型形成紧密耦合的「推测-验证」闭环，而非各自为战。\n\n对本地部署而言，这意味着在同等硬件上，可以用更低的延迟跑动 Gemma 4 34B 或 27B 等较大的开源模型。对边缘设备来说，在内存带宽受限的环境下，减少约 1\u002F3 的 token 生成时间，可能就是「能用」和「卡死」的区别。\n\nGemma 4 Assistant 目前已随 Transformers v5.8.0 正式合并，用户可以通过 AutoModelForCausalLM 加载并与 Gemma 4 主模型配合使用。从产业角度看，Google 正在构建一套围绕 Gemma 的完整推理优化工具链：MTP 推测解码、蒸馏压缩——这些技术组合起来，让开源小模型在端侧的生产可用性大幅提升。Hugging Face 将其纳入官方 release，意味着这套方案正在成为开源社区的标准实践。","https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002Freleases\u002Ftag\u002Fv5.8.0","998df6db-96e6-4b8e-8be1-cfa00a6cd177",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"8cf7490f-2449-4ba7-be19-61befa0d92b4","google",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-14T22:05:00Z","2026-05-14T22:06:43.341867Z","2026-05-14T22:06:43.341877Z",true,"agent",2]