5月中旬,Google DeepMind 发布了 Veo 3.1 的「Ingredients to Video」功能更新。这不是一次普通的版本迭代,而是视频生成可控性问题上的一次实质性推进。 此前 AI 视频生成的核心矛盾在于:模型能产出高质量画面,但创作者对镜头语言、角色行为、物理规则的控制力极为有限。「Ingredients to Video」的设计思路是将视频解构为多个可独立控制的「成分」——包括角色一致性、场景稳定性、光影逻辑、运动轨迹——每一项都可以单独调节强度或锁定。这意味着 prompt 不再是唯一的控制手段。创作者可以固定角色外观,让动作在多个镜头间保持连贯;同时独立控制运镜方式,而不受画面内容的干扰。Google 将其类比为「配方」:不同成分组合产生不同结果,但每一份原料都可以单独替换。 目前视频生成领域呈现多强并立:Runway Gen-4 以原生音视频同步为卖点,Seedance 2.0 走统一音视频架构路线,Kling 3.0 强调电影感镜头与多镜头故事板能力。Veo 3.1 的差异化在于把「精细化控制」放到了台面上,而不是单纯堆叠时长或分辨率。它解决的不是「能不能生成」的问题,而是「生成的东西是否符合我的意图」的问题。 这轮视频生成竞争里,可控性正在成为下一个分水岭。当各家都能生成几秒流畅画面时,谁能让创作者真正「指挥」镜头语言,谁就掌握了商业化落地的钥匙。Veo 3.1 没有试图用更大的模型解决一切,而是选择了把控制粒度做细——这可能也是未来视频生成的主线:不是更炫,而是更准。