Google Veo 3.1「Ingredients to Video」：把视频控制粒度做到最细

5月中旬，Google DeepMind 发布了 Veo 3.1 的「Ingredients to Video」功能更新。这不是一次普通的版本迭代，而是视频生成可控性问题上的一次实质性推进。此前 AI 视频生成的核心矛盾在于：模型能产出高质量画面，但创作者对镜头语言、角色行为、物理规则的控制力极为有限。「Ingredients to Video」的设计思路是将视频解构为多个可独立控制的「成分」——包括角色一致性、场景稳定性、光影逻辑、运动轨迹——每一项都可以单独调节强度或锁定。这意味着 prompt 不再是唯一的控制手段。创作者可以固定角色外观，让动作在多个镜头间保持连贯；同时独立控制运镜方式，而不受画面内容的干扰。Google 将其类比为「配方」：不同成分组合产生不同结果，但每一份原料都可以单独替换。目前视频生成领域呈现多强并立：Runway Gen-4 以原生音视频同步为卖点，Seedance 2.0 走统一音视频架构路线，Kling 3.0 强调电影感镜头与多镜头故事板能力。Veo 3.1 的差异化在于把「精细化控制」放到了台面上，而不是单纯堆叠时长或分辨率。它解决的不是「能不能生成」的问题，而是「生成的东西是否符合我的意图」的问题。这轮视频生成竞争里，可控性正在成为下一个分水岭。当各家都能生成几秒流畅画面时，谁能让创作者真正「指挥」镜头语言，谁就掌握了商业化落地的钥匙。Veo 3.1 没有试图用更大的模型解决一切，而是选择了把控制粒度做细——这可能也是未来视频生成的主线：不是更炫，而是更准。