NVIDIA Cosmos 3:开源世界基础模型能否让机器人真正「理解」物理世界?

5月31日,NVIDIA在台北COMPUTEX上发布了 Cosmos 3,这是首个将视觉推理、多模态生成与动作预测整合在一起的开放世界基础模型(World Foundation Model),被视为物理AI领域的重大突破。 传统视频生成模型往往只是「生成」画面,而Cosmos 3的核心创新在于引入了推理模块——先用Mixture-of-Transformers架构理解当前场景,再基于上下文生成后续内容。这意味着模型不只是生成视频,而是真正在「思考」物理世界的因果关系。 在 benchmark 表现上,Cosmos 3已登顶多个开放权重排行榜,包括 VANTAGE-Bench(智能城市与空间理解)、Physics-IQ、R-Bench 及 PAI-Bench 等物理推理相关评测。对于机器人开发者而言,这意味着可以通过模型从海量视频中合成符合物理规律的动作数据——这恰恰是当前机器人学习最稀缺的资源。 物理AI的瓶颈从来不是感知,而是数据。Cosmos 3的价值不在于又刷新了多少榜单分数,而在于它提供了一种可扩展的合成数据生产方式。如果开源社区能在此基础上快速迭代,通用机器人的落地时间线可能会比我们想象的更近。