DiffusionGemma 26B 开源:Google 把扩散范式搬进文本生成,单卡 4× 加速 Gemma 4

Google 在 6 月 10 日的 AI Blog 推出 DiffusionGemma——一个 26B 总参数 / 3.8B 激活的 MoE 实验模型,Apache 2.0 许可开源。它不是 Gemma 4 家族的常规迭代,而是一次范式跃迁:把图像/视频领域的扩散机制搬进文本生成,单次前向 256 token 并行解码,宣称在 H100 上达到 1000+ t/s、RTX 5090 上 700+ t/s,相对 Gemma 4 自回归版最多 4 倍加速。 **技术核心**。DiffusionGemma 走的是「占位 token 画布 + 多次迭代去噪」路线,与自回归「从左到右」逐 token 推理完全不同。所有 token 在生成时都可 attend 到整段文本——对在线编辑、代码 infill、数学图、氨基酸序列等非线性任务天然友好。MoE 设计 + 量化让它能塞进 18GB 显存,单张 RTX 4090/5090 即可跑。代价是整体输出质量低于标准 Gemma 4,Google 明确把它定位为「实验」和「为本地、低并发、交互场景而生」。 **生态协同**。Google 同步给了一整套工程栈:Hugging Face、vLLM(Red Hat 集成)、MLX、Unsloth、NVIDIA NeMo 全部 day-0 支持,llama.cpp 即将到来。原生 NVFP4 4-bit 浮点让 Hopper/Blackwell 上的吞吐再上一个台阶。Unsloth 已经放出 Sudoku 和 3D SVG 微调 demo。 **评论**。这条路线延续了 Gemini Diffusion 的研究脉络,但更值得关注的不是它会不会替代 GPT/Gemini 主线,而是它和 Nemotron-Labs Diffusion、DFlash 一起,构成 2026 年「扩散语言模型从论文走向可用工具」的拐点。在云端高 QPS 场景下,自回归模型靠 batching 仍占优;但对个人开发者、笔记本玩家、单卡工作站来说,4× speedup 是实打实的体验质变。文本扩散也许不会成为主流,但会成为边缘侧、实时编码、本地 IDE 的强力补充。