Gemini 3.1 Flash-Lite 正式版发布：Google 最快最便宜的 Gemini 3 模型来了

**Google 于 5 月 7 日正式推出 Gemini 3.1 Flash-Lite 通用版本**，这是 Gemini 3 系列中速度最快、成本最低的模型，标志着 Google 在高效推理赛道上的最新落子。 ## 定位：速度与成本的极致平衡 Flash-Lite 专为对延迟敏感、并发量大的企业场景打造，涵盖软件工程、客服、创意工具和金融等高实时性领域。Google 披露，该模型在分类任务上实现亚秒级响应，在高并发压力下 p95 延迟约为 1.8 秒，相较前代产品有显著提升。 ## 多模态能力落地值得注意的是，Flash-Lite 是 Gemini 3 系列中首款支持多模态（文本 + 图像）的 Lite 级别模型，支持工具调用（tool calling）和编排（orchestration）等 Agent 能力，标志着轻量级模型也能承载复杂 Agent 工作流。 ## 定价：再次拉低大模型使用门槛 Flash-Lite 的定价为每百万输入 tokens 0.25 美元、每百万输出 tokens 1.50 美元，延续了 Google 近年来在高效率模型上持续压缩成本的策略。这也是 Google 面向大规模企业部署给出的最低单价方案。 ## 行业影响 JetBrains、Gladly、Ramp 等企业已率先在生产环境中采用。Google 此番将 Flash-Lite 推至 GA（正式发布），既是对 Preview 阶段用户反馈的回应，也预示着今年 I/O 大会上 Gemini 3.2 Flash 等更高端型号即将面世——Flash 系列正在成为 Google 覆盖企业需求的主力价格锚点。