智源王仲远：世界模型处在"2012 时刻"，"潜空间统一"是中美同跑的第五种解法

智源研究院（BAAI）院长王仲远在硬氪专访中，把"世界模型"（World Model）拆成四条分岔路，并抛出"中国与海外正处于同一起跑线"的判断。他归纳的四类主流路线分别是：以语言为中心（VLM、VLA，文本空间预测下一个词但学不到物理后果）、以像素为中心（Sora、Seedance 等视频生成类，像素级画面但不懂因果）、以三维结构为中心（World Labs Marble 等，几何结构≠物理状态），以及以视觉表征为中心（LeCun 的 JEPA 系列，预测表征压缩而非物理规律）。智源走的是"第五种"路：把所有模态压缩进同一潜空间（Latent Space），再由不同 Decoder 按需还原成画面、动作、位置。这套"潜空间统一表征"已陆续接入悟界·Emu3/Emu3.5、悟·Physis 和悟界·RoboBrain Orca；其中 Emu3.5 验证了"类 LLM 的统一架构在多模态上能 Scale Up"，给世界模型阶段的基础设施铺路。王仲远明确表态"视频生成不等于世界模型"。OpenAI 当年用 World Simulator 描述 Sora 让这个词被泛化，但真正的世界模型核心是"下一个物理状态预测"（NSP），物理正确、动作因果可溯、长时序一致、跨场景泛化是四项硬指标。在他看来，世界模型还处在"深度学习的 2012 年前后"，数据孤岛、路线未定、Benchmark 还在打架，距离 ChatGPT 时刻还有 3 到 5 年。但和 LLM 时代不同，"中美没有差距"。短期 VLA 仍是工厂分拣等场景主力；长期看，能预测物理状态、指挥机器人决策的世界基座模型，才是 AGI 进入物理世界的真正底座。