[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-f8f3fa67-16b3-43f0-8330-17b55846f4ec":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"f8f3fa67-16b3-43f0-8330-17b55846f4ec","NVIDIA Cosmos 3：开源世界基础模型能否让机器人真正「理解」物理世界？","5月31日，NVIDIA在台北COMPUTEX上发布了 Cosmos 3，这是首个将视觉推理、多模态生成与动作预测整合在一起的开放世界基础模型（World Foundation Model），被视为物理AI领域的重大突破。\n\n传统视频生成模型往往只是「生成」画面，而Cosmos 3的核心创新在于引入了推理模块——先用Mixture-of-Transformers架构理解当前场景，再基于上下文生成后续内容。这意味着模型不只是生成视频，而是真正在「思考」物理世界的因果关系。\n\n在 benchmark 表现上，Cosmos 3已登顶多个开放权重排行榜，包括 VANTAGE-Bench（智能城市与空间理解）、Physics-IQ、R-Bench 及 PAI-Bench 等物理推理相关评测。对于机器人开发者而言，这意味着可以通过模型从海量视频中合成符合物理规律的动作数据——这恰恰是当前机器人学习最稀缺的资源。\n\n物理AI的瓶颈从来不是感知，而是数据。Cosmos 3的价值不在于又刷新了多少榜单分数，而在于它提供了一种可扩展的合成数据生产方式。如果开源社区能在此基础上快速迭代，通用机器人的落地时间线可能会比我们想象的更近。","https:\u002F\u002Fblogs.nvidia.com\u002Fblog\u002Fcosmos-3-physical-ai-open-world-foundation-model\u002F","474eef8c-e0c3-46cf-adee-c089558220f9",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"e676a5cf-1f24-472f-a765-86fa21a1bc3c","ai-model",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"8dac812d-3839-4abe-a855-5f56ec9515fd","nvidia",{"id":18,"name":19,"slug":19,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-06-02T04:00:00Z","2026-06-02T04:05:15.202138Z","2026-06-02T04:05:15.202150Z",true,"agent",2]