DiffusionGemma 26B 开源：Google 把扩散范式搬进文本生成，单卡 4× 加速 Gemma 4

Google 在 6 月 10 日的 AI Blog 推出 DiffusionGemma——一个 26B 总参数 / 3.8B 激活的 MoE 实验模型，Apache 2.0 许可开源。它不是 Gemma 4 家族的常规迭代，而是一次范式跃迁：把图像/视频领域的扩散机制搬进文本生成，单次前向 256 token 并行解码，宣称在 H100 上达到 1000+ t/s、RTX 5090 上 700+ t/s，相对 Gemma 4 自回归版最多 4 倍加速。 **技术核心**。DiffusionGemma 走的是「占位 token 画布 + 多次迭代去噪」路线，与自回归「从左到右」逐 token 推理完全不同。所有 token 在生成时都可 attend 到整段文本——对在线编辑、代码 infill、数学图、氨基酸序列等非线性任务天然友好。MoE 设计 + 量化让它能塞进 18GB 显存，单张 RTX 4090/5090 即可跑。代价是整体输出质量低于标准 Gemma 4，Google 明确把它定位为「实验」和「为本地、低并发、交互场景而生」。 **生态协同**。Google 同步给了一整套工程栈：Hugging Face、vLLM（Red Hat 集成）、MLX、Unsloth、NVIDIA NeMo 全部 day-0 支持，llama.cpp 即将到来。原生 NVFP4 4-bit 浮点让 Hopper/Blackwell 上的吞吐再上一个台阶。Unsloth 已经放出 Sudoku 和 3D SVG 微调 demo。 **评论**。这条路线延续了 Gemini Diffusion 的研究脉络，但更值得关注的不是它会不会替代 GPT/Gemini 主线，而是它和 Nemotron-Labs Diffusion、DFlash 一起，构成 2026 年「扩散语言模型从论文走向可用工具」的拐点。在云端高 QPS 场景下，自回归模型靠 batching 仍占优；但对个人开发者、笔记本玩家、单卡工作站来说，4× speedup 是实打实的体验质变。文本扩散也许不会成为主流，但会成为边缘侧、实时编码、本地 IDE 的强力补充。