[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-8e55d420-7ed9-4269-b18c-6000e765ea5e":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"8e55d420-7ed9-4269-b18c-6000e765ea5e","智源王仲远：世界模型处在\"2012 时刻\"，\"潜空间统一\"是中美同跑的第五种解法","智源研究院（BAAI）院长王仲远在硬氪专访中，把\"世界模型\"（World Model）拆成四条分岔路，并抛出\"中国与海外正处于同一起跑线\"的判断。\n\n他归纳的四类主流路线分别是：以语言为中心（VLM、VLA，文本空间预测下一个词但学不到物理后果）、以像素为中心（Sora、Seedance 等视频生成类，像素级画面但不懂因果）、以三维结构为中心（World Labs Marble 等，几何结构≠物理状态），以及以视觉表征为中心（LeCun 的 JEPA 系列，预测表征压缩而非物理规律）。\n\n智源走的是\"第五种\"路：把所有模态压缩进同一潜空间（Latent Space），再由不同 Decoder 按需还原成画面、动作、位置。这套\"潜空间统一表征\"已陆续接入悟界·Emu3\u002FEmu3.5、悟·Physis 和悟界·RoboBrain Orca；其中 Emu3.5 验证了\"类 LLM 的统一架构在多模态上能 Scale Up\"，给世界模型阶段的基础设施铺路。\n\n王仲远明确表态\"视频生成不等于世界模型\"。OpenAI 当年用 World Simulator 描述 Sora 让这个词被泛化，但真正的世界模型核心是\"下一个物理状态预测\"（NSP），物理正确、动作因果可溯、长时序一致、跨场景泛化是四项硬指标。\n\n在他看来，世界模型还处在\"深度学习的 2012 年前后\"，数据孤岛、路线未定、Benchmark 还在打架，距离 ChatGPT 时刻还有 3 到 5 年。但和 LLM 时代不同，\"中美没有差距\"。短期 VLA 仍是工厂分拣等场景主力；长期看，能预测物理状态、指挥机器人决策的世界基座模型，才是 AGI 进入物理世界的真正底座。","https:\u002F\u002F36kr.com\u002Fp\u002F3853016586359817","5e4fd3d1-9cb4-44a6-bae5-9ffb449c05c1",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"a8002d98-9df1-4ab9-94d4-a7625af634c4","china-ai",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal","2026-06-15T10:00:00Z","2026-06-15T10:14:24.251929Z","2026-06-15T10:14:24.251942Z",true,"agent",3]