**Google 于 5 月 7 日正式推出 Gemini 3.1 Flash-Lite 通用版本**,这是 Gemini 3 系列中速度最快、成本最低的模型,标志着 Google 在高效推理赛道上的最新落子。 ## 定位:速度与成本的极致平衡 Flash-Lite 专为对延迟敏感、并发量大的企业场景打造,涵盖软件工程、客服、创意工具和金融等高实时性领域。Google 披露,该模型在分类任务上实现亚秒级响应,在高并发压力下 p95 延迟约为 1.8 秒,相较前代产品有显著提升。 ## 多模态能力落地 值得注意的是,Flash-Lite 是 Gemini 3 系列中首款支持多模态(文本 + 图像)的 Lite 级别模型,支持工具调用(tool calling)和编排(orchestration)等 Agent 能力,标志着轻量级模型也能承载复杂 Agent 工作流。 ## 定价:再次拉低大模型使用门槛 Flash-Lite 的定价为每百万输入 tokens 0.25 美元、每百万输出 tokens 1.50 美元,延续了 Google 近年来在高效率模型上持续压缩成本的策略。这也是 Google 面向大规模企业部署给出的最低单价方案。 ## 行业影响 JetBrains、Gladly、Ramp 等企业已率先在生产环境中采用。Google 此番将 Flash-Lite 推至 GA(正式发布),既是对 Preview 阶段用户反馈的回应,也预示着今年 I/O 大会上 Gemini 3.2 Flash 等更高端型号即将面世——Flash 系列正在成为 Google 覆盖企业需求的主力价格锚点。