Gemma 4 12B 发布：Google 开源多模态模型首次实现无编码器架构

Google DeepMind 于 2025 年 6 月 3 日发布了 Gemma 4 12B，这是一款参数规模为 120 亿的开源多模态模型，最大的亮点在于其采用了**无独立视觉/音频编码器的架构设计**——所有模态直接流入同一个解码器 Transformer，视觉和音频信号通过轻量嵌入模块直接注入 LLM 主干网络，不再需要独立的编码器来处理图像和音频输入。这一设计使得模型体积大幅缩小，同时保留了强大的多模态理解能力。Gemma 4 12B 支持文本、图像、视频和原生音频的统一处理，能够理解视觉内容、处理音频输入并执行复杂推理任务。由于参数精度的优化，该模型可以在配备 16GB 显存的笔记本电脑上本地运行，满足边缘 AI 场景的需求。此外，它采用 Apache 2.0 许可证，对商业使用限制较少，适合开发者部署本地化 Agent 工作流。与 Google 此前发布的 Gemma 4 26B MoE 版本相比，12B 虽然参数更少，但在大多数标准 benchmark 上性能接近 26B，却只占用不到一半的显存。对于需要在本地设备上构建多模态 AI 能力的开发者来说，这是一款值得关注的新选择。