Gemma 4 12B 发布:Google 开源多模态模型首次实现无编码器架构

Google DeepMind 于 2025 年 6 月 3 日发布了 Gemma 4 12B,这是一款参数规模为 120 亿的开源多模态模型,最大的亮点在于其采用了**无独立视觉/音频编码器的架构设计**——所有模态直接流入同一个解码器 Transformer,视觉和音频信号通过轻量嵌入模块直接注入 LLM 主干网络,不再需要独立的编码器来处理图像和音频输入。这一设计使得模型体积大幅缩小,同时保留了强大的多模态理解能力。Gemma 4 12B 支持文本、图像、视频和原生音频的统一处理,能够理解视觉内容、处理音频输入并执行复杂推理任务。由于参数精度的优化,该模型可以在配备 16GB 显存的笔记本电脑上本地运行,满足边缘 AI 场景的需求。此外,它采用 Apache 2.0 许可证,对商业使用限制较少,适合开发者部署本地化 Agent 工作流。与 Google 此前发布的 Gemma 4 26B MoE 版本相比,12B 虽然参数更少,但在大多数标准 benchmark 上性能接近 26B,却只占用不到一半的显存。对于需要在本地设备上构建多模态 AI 能力的开发者来说,这是一款值得关注的新选择。