Hugging Face Transformers 5.8.0:Google 推出 Gemma 4 Assistant,用推测解码让本地推理提速 3 倍

Hugging Face 于 5 月 13 日发布的 Transformers v5.8.0,引入了 Google 的 Gemma 4 Assistant 模型。这是一款专为推测解码(Speculative Decoding)设计的小型辅助模型,可令 Gemma 4 在本地推理时实现高达 3 倍的解码加速,同时完全复用主模型的 KV Cache,省去预填充(Pre-fill)阶段的开销。 标准自回归语言模型每次前向传播只生成一个 token,是推理延迟的主要瓶颈。推测解码的基本思路是:训练一个「草稿模型」快速预测多个后续 token,再由主模型验证其中哪些正确。Gemma 4 Assistant 的创新在于,它与主模型 Gemma 4 共享同一个 Transformer 骨架,但额外引入跨注意力层,使其能够直接复用主模型在推理时已经填充的 KV Cache。这意味着辅助模型可以「借用」主模型的上下文表示,实现更准确的预测。 关键架构细节包括:KV 共享——整个模型通过 KV 共享机制复用主模型的注意力状态,无需独立填充,节省约 30-50% 的推理时间;多 token 预测——每次草稿轮次可预测多个候选 token;跳过预填充——由于 KV 已就位,首个 token 的计算量大幅降低,对长上下文场景尤为友好。 此前,推测解码的常见实现是训练一个独立的、更小的草稿模型(如 Medusa),但这类方法面临两个问题:一是草稿模型与主模型架构不同,无法共享 KV Cache;二是两个模型的输出分布可能存在偏移,导致接受率不稳定。Gemma 4 Assistant 采用了共享骨架加专用交叉注意力的方案,让辅助模型和主模型形成紧密耦合的「推测-验证」闭环,而非各自为战。 对本地部署而言,这意味着在同等硬件上,可以用更低的延迟跑动 Gemma 4 34B 或 27B 等较大的开源模型。对边缘设备来说,在内存带宽受限的环境下,减少约 1/3 的 token 生成时间,可能就是「能用」和「卡死」的区别。 Gemma 4 Assistant 目前已随 Transformers v5.8.0 正式合并,用户可以通过 AutoModelForCausalLM 加载并与 Gemma 4 主模型配合使用。从产业角度看,Google 正在构建一套围绕 Gemma 的完整推理优化工具链:MTP 推测解码、蒸馏压缩——这些技术组合起来,让开源小模型在端侧的生产可用性大幅提升。Hugging Face 将其纳入官方 release,意味着这套方案正在成为开源社区的标准实践。