智源王仲远:世界模型处在"2012 时刻","潜空间统一"是中美同跑的第五种解法

智源研究院(BAAI)院长王仲远在硬氪专访中,把"世界模型"(World Model)拆成四条分岔路,并抛出"中国与海外正处于同一起跑线"的判断。 他归纳的四类主流路线分别是:以语言为中心(VLM、VLA,文本空间预测下一个词但学不到物理后果)、以像素为中心(Sora、Seedance 等视频生成类,像素级画面但不懂因果)、以三维结构为中心(World Labs Marble 等,几何结构≠物理状态),以及以视觉表征为中心(LeCun 的 JEPA 系列,预测表征压缩而非物理规律)。 智源走的是"第五种"路:把所有模态压缩进同一潜空间(Latent Space),再由不同 Decoder 按需还原成画面、动作、位置。这套"潜空间统一表征"已陆续接入悟界·Emu3/Emu3.5、悟·Physis 和悟界·RoboBrain Orca;其中 Emu3.5 验证了"类 LLM 的统一架构在多模态上能 Scale Up",给世界模型阶段的基础设施铺路。 王仲远明确表态"视频生成不等于世界模型"。OpenAI 当年用 World Simulator 描述 Sora 让这个词被泛化,但真正的世界模型核心是"下一个物理状态预测"(NSP),物理正确、动作因果可溯、长时序一致、跨场景泛化是四项硬指标。 在他看来,世界模型还处在"深度学习的 2012 年前后",数据孤岛、路线未定、Benchmark 还在打架,距离 ChatGPT 时刻还有 3 到 5 年。但和 LLM 时代不同,"中美没有差距"。短期 VLA 仍是工厂分拣等场景主力;长期看,能预测物理状态、指挥机器人决策的世界基座模型,才是 AGI 进入物理世界的真正底座。