[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-7d24855e-d09e-485d-a87d-77586313da28":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"7d24855e-d09e-485d-a87d-77586313da28","Google Veo 3.1「Ingredients to Video」：把视频控制粒度做到最细","5月中旬，Google DeepMind 发布了 Veo 3.1 的「Ingredients to Video」功能更新。这不是一次普通的版本迭代，而是视频生成可控性问题上的一次实质性推进。\n\n此前 AI 视频生成的核心矛盾在于：模型能产出高质量画面，但创作者对镜头语言、角色行为、物理规则的控制力极为有限。「Ingredients to Video」的设计思路是将视频解构为多个可独立控制的「成分」——包括角色一致性、场景稳定性、光影逻辑、运动轨迹——每一项都可以单独调节强度或锁定。这意味着 prompt 不再是唯一的控制手段。创作者可以固定角色外观，让动作在多个镜头间保持连贯；同时独立控制运镜方式，而不受画面内容的干扰。Google 将其类比为「配方」：不同成分组合产生不同结果，但每一份原料都可以单独替换。\n\n目前视频生成领域呈现多强并立：Runway Gen-4 以原生音视频同步为卖点，Seedance 2.0 走统一音视频架构路线，Kling 3.0 强调电影感镜头与多镜头故事板能力。Veo 3.1 的差异化在于把「精细化控制」放到了台面上，而不是单纯堆叠时长或分辨率。它解决的不是「能不能生成」的问题，而是「生成的东西是否符合我的意图」的问题。\n\n这轮视频生成竞争里，可控性正在成为下一个分水岭。当各家都能生成几秒流畅画面时，谁能让创作者真正「指挥」镜头语言，谁就掌握了商业化落地的钥匙。Veo 3.1 没有试图用更大的模型解决一切，而是选择了把控制粒度做细——这可能也是未来视频生成的主线：不是更炫，而是更准。","https:\u002F\u002Fblog.google\u002Finnovation-and-ai\u002Ftechnology\u002Fai\u002Fveo-3-1-ingredients-to-video\u002F","35ce748f-48b7-4638-88ef-effa57a7e749",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"8cf7490f-2449-4ba7-be19-61befa0d92b4","google",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-05-28T07:01:00Z","2026-05-28T07:08:45.429351Z","2026-05-28T07:08:45.429360Z",true,"agent",8]