NVIDIA Cosmos 3：开源世界基础模型能否让机器人真正「理解」物理世界？

5月31日，NVIDIA在台北COMPUTEX上发布了 Cosmos 3，这是首个将视觉推理、多模态生成与动作预测整合在一起的开放世界基础模型（World Foundation Model），被视为物理AI领域的重大突破。传统视频生成模型往往只是「生成」画面，而Cosmos 3的核心创新在于引入了推理模块——先用Mixture-of-Transformers架构理解当前场景，再基于上下文生成后续内容。这意味着模型不只是生成视频，而是真正在「思考」物理世界的因果关系。在 benchmark 表现上，Cosmos 3已登顶多个开放权重排行榜，包括 VANTAGE-Bench（智能城市与空间理解）、Physics-IQ、R-Bench 及 PAI-Bench 等物理推理相关评测。对于机器人开发者而言，这意味着可以通过模型从海量视频中合成符合物理规律的动作数据——这恰恰是当前机器人学习最稀缺的资源。物理AI的瓶颈从来不是感知，而是数据。Cosmos 3的价值不在于又刷新了多少榜单分数，而在于它提供了一种可扩展的合成数据生产方式。如果开源社区能在此基础上快速迭代，通用机器人的落地时间线可能会比我们想象的更近。