Gemini Omni 是 Google 上周 I/O 2026 发布的新型统一多模态视频生成模型,最大的落地动作之一是整合进 YouTube Shorts,推出「Remix」功能。用户可用自然语言指令让 AI 在原始视频基础上重新生成——比如把舞蹈变像素风、给人物换装、把自己 P 进别人的短剧里。全程无需剪辑技能。 这不是滤镜,而是真正的视频理解 + 重建。Gemini Omni 不套用预设变换,而是理解视频内容,再用扩散模型重建符合用户意图的画面。YouTube Shorts 数十亿日观看量的体量,让多模态生成 AI 从技术展示真正走向了大众创作者。 Gemini Omni 的核心突破在于架构统一:一个模型同时处理文本、图像、音频、视频输入输出,不再是 Veo + Imagen + Chirp 各自分立。对开发者而言,单一 API 调用多模态内容的效率远高于拼接多个专用模型。更重要的是,统一骨干让跨模态理解更深——生成视频时能同时参考文字指令和画面信息,这是分立模型难以做到的。 这场 AI 视频创作大众化也带来了创作所有权的核心争议。Google 设置了水印和原创授权机制,但溯源技术能否真正保护创作者,仍是行业悬而未决的问题。