MoVerse 实时视频世界模型：用「全景高斯脚手架」把单图漫游跑进 8 FPS，扩散-3D-渲染三段式终于打通

来自 Yang Zhou、Ziheng Wang、Yuqin Lu、Haofeng Liu、Jun Liang、Shengfeng He、Jing Li 等团队 6 月 11 日在 arXiv 公开的 MoVerse，提出一种从单张窄视角图像生成「可交互漫游场景」的实时视频世界模型。技术核心是把「世界构建」与「观测渲染」彻底解耦，分三步串成一条 pipeline： 1. 全景补全：先用 topology-aware diffusion 把输入图扩成与重力方向对齐的 360° 全景图，闭合缺失视场； 2. 几何提升：通过 panoramic geometry-aware residual prediction，把全景图「提」成一张稠密、可直接渲染的 3D Gaussian scaffold，作为持久空间记忆； 3. 条件视频渲染：高斯条件下的视频渲染器沿用户指定的相机轨迹，把 scaffold 渲染为光真实视频。为保证可交互性，作者训练了一个双向扩散教师网络保画质，再用蒸馏得到一个 causal autoregressive student，输出有界延迟的视频流。最终整条 pipeline 在单张 NVIDIA RTX 4090 上做到 8 FPS 实时漫游——过去依赖「离线 + 多卡集群」的 world model 首次具备消费级单卡交互能力。 MoVerse 的真正价值不是「又多一个视频生成模型」，而是把显式 3D 表示（Gaussian）的可控性与长程一致性，与生成式视频模型的感知质量，合并到同一条可交互的推理链路里。从单张图出发，让用户在普通消费 GPU 上「走进」画面，意味着 video world model 从 demo 阶段跨过了可产品化门槛。考虑到 World Labs、Decart Oasis 3、字节 Bernini 等同期工作都在向「实时 + 可控 + 长时」收敛，MoVerse 的 diffusion→scaffold→rendering 三段式设计大概率会成为接下来世界模型的新参考架构。