World-R1:强化学习让视频生成学会「物理常识」,无需改变模型架构

视频生成模型近年来在视觉质量上突飞猛进,却始终面临一个根本性缺陷:不懂物理常识。一个杯子从桌面掉落,模型可能生成它悬浮或穿透地面的画面——这类几何不一致性问题严重限制了视频生成在仿真、机器人训练等场景的落地。 传统解决方案的做法是对底座模型进行架构改造,引入3D先验模块。但这种做法计算开销大、难以扩展,且每换一个新模型就要重新训练。 **World-R1的思路完全不同:不用改模型,改训练方式。** 微软研究院最新提出的World-R1框架,通过强化学习(RL)让视频生成模型自行学会3D约束。其核心是Flow-GRPO算法——用预训练的3D基础模型和视觉语言模型作为裁判,对生成结果进行物理一致性评分,再将奖励信号传回视频模型进行优化。整个过程无需修改模型架构,也不依赖额外的3D训练数据或推理时开销。 为了让模型理解什么样的视频是物理正确的,团队还专门构建了一个纯文本世界仿真数据集,覆盖自然景观、流体动力学、刚体碰撞等场景,专注于文本描述而非视频样本。 实验结果显示,World-R1在保持原有视觉质量的同时,显著提升了3D几何一致性。它证明了让视频模型理解物理不一定需要重建模型本身——合适的强化学习信号同样可以撬动物理直觉。 这个方向的深意在于:视频生成正在从看起来逼真向真正模拟世界运行规律演进。一旦模型能可靠地遵守物理法则,它就可以成为机器人训练的仿真器、自动驾驶的数据工厂,甚至科学研究的现象模拟器。World-R1代表了一条不需要架构改造、直接通过后训练对齐3D约束的路径,值得关注。 来源:Microsoft Research, arXiv (April 2026)