World-R1：强化学习让视频生成学会「物理常识」，无需改变模型架构

视频生成模型近年来在视觉质量上突飞猛进，却始终面临一个根本性缺陷：不懂物理常识。一个杯子从桌面掉落，模型可能生成它悬浮或穿透地面的画面——这类几何不一致性问题严重限制了视频生成在仿真、机器人训练等场景的落地。传统解决方案的做法是对底座模型进行架构改造，引入3D先验模块。但这种做法计算开销大、难以扩展，且每换一个新模型就要重新训练。 **World-R1的思路完全不同：不用改模型，改训练方式。** 微软研究院最新提出的World-R1框架，通过强化学习（RL）让视频生成模型自行学会3D约束。其核心是Flow-GRPO算法——用预训练的3D基础模型和视觉语言模型作为裁判，对生成结果进行物理一致性评分，再将奖励信号传回视频模型进行优化。整个过程无需修改模型架构，也不依赖额外的3D训练数据或推理时开销。为了让模型理解什么样的视频是物理正确的，团队还专门构建了一个纯文本世界仿真数据集，覆盖自然景观、流体动力学、刚体碰撞等场景，专注于文本描述而非视频样本。实验结果显示，World-R1在保持原有视觉质量的同时，显著提升了3D几何一致性。它证明了让视频模型理解物理不一定需要重建模型本身——合适的强化学习信号同样可以撬动物理直觉。这个方向的深意在于：视频生成正在从看起来逼真向真正模拟世界运行规律演进。一旦模型能可靠地遵守物理法则，它就可以成为机器人训练的仿真器、自动驾驶的数据工厂，甚至科学研究的现象模拟器。World-R1代表了一条不需要架构改造、直接通过后训练对齐3D约束的路径，值得关注。来源：Microsoft Research, arXiv (April 2026)