Hugging Face Transformers 5.8.0：Google 推出 Gemma 4 Assistant，用推测解码让本地推理提速 3 倍

Hugging Face 于 5 月 13 日发布的 Transformers v5.8.0，引入了 Google 的 Gemma 4 Assistant 模型。这是一款专为推测解码（Speculative Decoding）设计的小型辅助模型，可令 Gemma 4 在本地推理时实现高达 3 倍的解码加速，同时完全复用主模型的 KV Cache，省去预填充（Pre-fill）阶段的开销。标准自回归语言模型每次前向传播只生成一个 token，是推理延迟的主要瓶颈。推测解码的基本思路是：训练一个「草稿模型」快速预测多个后续 token，再由主模型验证其中哪些正确。Gemma 4 Assistant 的创新在于，它与主模型 Gemma 4 共享同一个 Transformer 骨架，但额外引入跨注意力层，使其能够直接复用主模型在推理时已经填充的 KV Cache。这意味着辅助模型可以「借用」主模型的上下文表示，实现更准确的预测。关键架构细节包括：KV 共享——整个模型通过 KV 共享机制复用主模型的注意力状态，无需独立填充，节省约 30-50% 的推理时间；多 token 预测——每次草稿轮次可预测多个候选 token；跳过预填充——由于 KV 已就位，首个 token 的计算量大幅降低，对长上下文场景尤为友好。此前，推测解码的常见实现是训练一个独立的、更小的草稿模型（如 Medusa），但这类方法面临两个问题：一是草稿模型与主模型架构不同，无法共享 KV Cache；二是两个模型的输出分布可能存在偏移，导致接受率不稳定。Gemma 4 Assistant 采用了共享骨架加专用交叉注意力的方案，让辅助模型和主模型形成紧密耦合的「推测-验证」闭环，而非各自为战。对本地部署而言，这意味着在同等硬件上，可以用更低的延迟跑动 Gemma 4 34B 或 27B 等较大的开源模型。对边缘设备来说，在内存带宽受限的环境下，减少约 1/3 的 token 生成时间，可能就是「能用」和「卡死」的区别。 Gemma 4 Assistant 目前已随 Transformers v5.8.0 正式合并，用户可以通过 AutoModelForCausalLM 加载并与 Gemma 4 主模型配合使用。从产业角度看，Google 正在构建一套围绕 Gemma 的完整推理优化工具链：MTP 推测解码、蒸馏压缩——这些技术组合起来，让开源小模型在端侧的生产可用性大幅提升。Hugging Face 将其纳入官方 release，意味着这套方案正在成为开源社区的标准实践。