Gemini Omni Flash 体验：多模态视频生成正在越过令人不安的边界

如果说去年 Google 的 Veo 3 让人惊呼 AI 视频已经接近真实，那么今年上线的 Gemini Omni Flash 则把这种"接近"推向了另一个极端——太接近了，反而让人后背发凉。Omni Flash 是 Google Omni 家族首款正式发布的多模态生成模型，目前已在 Google AI 视频平台 Flow 中上线。与前代 Veo 相比，它的最大改进在于三点：多模态输入可以同时接收视频和文字提示词作为生成起点；真实世界知识融合让模型能更好地维持长视频中的物体一致性和场景逻辑；指令感知编辑使用户可以用自然语言提出修改意见，模型会真正采纳并反映在结果中。记者实测中最值得注意的发现是：Omni Flash 生成的个人 deepfake 视频，已经基本无法被普通人辨别。一段"吃意大利面的自拍视频"，丈夫在没有事先告知的情况下完全相信是真实的，唯一破绽只是"碗看起来不太熟悉"。在埃菲尔铁塔前的片段，虽然略显卡通感，但单独看几乎无法判断是 AI 生成。这说明视频生成的"真实感"瓶颈，正在从技术层面转向心理层面。但 Omni 远非完美——物体属性漂移、物理一致性失效、指令遵循不稳定等问题，说明当前多模态生成模型在时序一致性和精确指令执行上仍是弱项，距离真正可靠的创作工具还有差距。这场关于 synthID 类水印技术的落地竞赛，比任何时候都更紧迫。技术秀场之外，真正值得思考的问题是：我们准备好生活在一个"眼见不再为实"的世界了吗？