「Holo-World」用一张图控制相机、物体和天气：视频世界模型首次把"环境状态"做成独立控制轴

视频世界模型长期被一个隐含假设困住：想生成一段可控视频，要么给一段源视频，要么给一个完整 3D 场景。Holo-World 把这个二分法彻底拆掉——它用"第一帧"作为唯一锚点，把相机轨迹、物体运动和天气状态视为彼此正交的控制信号，从同一张图直接生成既能"保住原世界"也能"切到目标天气"的两类视频。\n\n论文的贡献分两层。数据层面，团队发布 HoloStateData，将散乱视频切成"相机-物体-天气"统一控制的样本，让监督信号本身就带解耦结构。模型层面，Unified Scene Adapter 显式把"世界保持"和"天气迁移"分到不同参数子空间，再用渲染背景、几何缓冲和物体控制稳住场景结构；天气部分交给 Scene-Weather Decomposed CFG 单独放大，避免传统 CFG 把整个条件都拉过去。量化实验显示，Holo-World 在天气生成任务上击败了需要"先给视频"的天气编辑基线。\n\n这条路径最大的意义在于：把"可控性"从堆叠控制模块的工程问题，变成参数空间可分解的建模问题。配合 first-frame 锚定，视频世界模型第一次可以像文生图那样，从单张图精细控制相机/物体/天气三轴，而不依赖昂贵的 3D 重建链路。对 AIGC 视频管线来说，这是从"先建模再控制"转向"直接单帧控制"的范式拐点。