Nano Banana 2 Lite 与 Gemini Omni Flash 同日上线:Google 多模态 API 进入分层工业化阶段

Google 在 6 月 30 日一次性把多模态生成的"工业化"链路铺到开发者面前:Nano Banana 2 Lite(代号 Gemini 3.1 Flash-Lite Image)与 Gemini Omni Flash 同步上线,前者是迄今最快、最便宜的 Gemini 图像模型,后者是首次以 API 形式开放的视频生成与对话式剪辑模型。 Nano Banana 2 Lite 把 1K 分辨率图像生成压到 4 秒,单价 $0.034/张。Google 同步把 Nano Banana 系列分成四档——Lite 走速度、2 走通用、Pro 走复杂专业推理、旧版 Gemini 2.5 Flash Image 被官方建议直接替换。"速度 / 质量 / 控制"三层定价的明确化,意味着图像模型告别单一旗舰阶段,进入按场景分层选型的工程化时代。 Gemini Omni Flash 则把视频生成、多模态输入、对话式剪辑、音频生成整合到一个端点上。当前单段输出限制在 10 秒内,但已能在多次编辑中保持角色一致和风格稳定,价格 $0.10/秒,与 Veo 3.1 Fast 同档——比早期 Sora 公开 API 时的价格低了一个量级。两个模型放在一起,真正的信号不是单点性能,而是 Google 把"图像生成 → 视频生成 → 对话式剪辑"做成了可在同一开发平台调用的连续流水线。开发者先用 Lite 廉价批量打草稿,再把素材丢给 Omni Flash 出成片,无需切换供应商。NotebookLM 的 Short Video Overviews 已按此模式上线(上传文档→约 60 秒带旁白的教育短视频),Adobe、WPP、Figma 也开始集成新模型。如果说过去一年多模态的关键词是"能不能生成",2026 下半年正在切换成"按什么价格、在多短延迟内、以流水线方式生成"。Google 这一组发布正是这条赛道上的明确信号:多模态模型开始按工业 API 方式被定价和消费,真正的护城河将从"模型能不能做"转向"端到端流水线谁更顺"。