世界模型崛起:AI 从数字世界走向物理世界的关键一步

当前的大语言模型已经在数字世界中展现了强大的能力——写文章、写代码、回答问题——但在物理世界中,它们依然显得笨拙。4月21日,MIT Technology Review 发表文章,系统梳理了世界模型(World Model)从学术概念走向产业焦点的演进路径。 世界模型并非新概念,其核心思想是让 AI 系统建立对外部环境的内部表征,从而能够预测行动后果并据此决策。传统 LLM 对物理世界的理解是脆弱的:一项研究表明,在模拟纽约出租车路线时,LLM 表现出色,但一旦遭遇意外绕路就会彻底失效。这说明 LLM 并没有真正建立环境模型,而只是在拟合训练数据中的模式。 真正推动世界模型走向前台的是几个关键事件:Google DeepMind 持续投入、斯坦福教授李飞飞创立 World Labs、以及 Yann LeCun 从 Meta 离职创办专注于世界模型的初创公司。OpenAI 也将资源从已关闭的 Sora 视频应用转向长期世界模拟研究。与此同时,Pokémon Go 的开发商已利用玩家贡献的数十亿张图像,开始构建配送机器人所需的世界模型基础组件。 世界模型的核心价值在于为 AI 赋予情景推演能力。在数字世界,LLM 可以依靠语言统计规律工作;但在物理世界——导航、操作、执行任务——AI 需要对空间、物理因果和长期后果有真实理解。这是当前 LLM 架构的根本局限,也是世界模型被视为通向通用机器人、自动驾驶、科学推理的关键路径的原因。 值得注意的是,世界模型并不是要替代 LLM,而是与之互补。未来的 AI 系统很可能由 LLM 负责语言理解和推理,由世界模型负责物理情景建模和规划,两者结合才能真正突破数字与物理世界的边界。这条路很长,但方向已经清晰。