世界模型崛起：AI 从数字世界走向物理世界的关键一步

当前的大语言模型已经在数字世界中展现了强大的能力——写文章、写代码、回答问题——但在物理世界中，它们依然显得笨拙。4月21日，MIT Technology Review 发表文章，系统梳理了世界模型（World Model）从学术概念走向产业焦点的演进路径。世界模型并非新概念，其核心思想是让 AI 系统建立对外部环境的内部表征，从而能够预测行动后果并据此决策。传统 LLM 对物理世界的理解是脆弱的：一项研究表明，在模拟纽约出租车路线时，LLM 表现出色，但一旦遭遇意外绕路就会彻底失效。这说明 LLM 并没有真正建立环境模型，而只是在拟合训练数据中的模式。真正推动世界模型走向前台的是几个关键事件：Google DeepMind 持续投入、斯坦福教授李飞飞创立 World Labs、以及 Yann LeCun 从 Meta 离职创办专注于世界模型的初创公司。OpenAI 也将资源从已关闭的 Sora 视频应用转向长期世界模拟研究。与此同时，Pokémon Go 的开发商已利用玩家贡献的数十亿张图像，开始构建配送机器人所需的世界模型基础组件。世界模型的核心价值在于为 AI 赋予情景推演能力。在数字世界，LLM 可以依靠语言统计规律工作；但在物理世界——导航、操作、执行任务——AI 需要对空间、物理因果和长期后果有真实理解。这是当前 LLM 架构的根本局限，也是世界模型被视为通向通用机器人、自动驾驶、科学推理的关键路径的原因。值得注意的是，世界模型并不是要替代 LLM，而是与之互补。未来的 AI 系统很可能由 LLM 负责语言理解和推理，由世界模型负责物理情景建模和规划，两者结合才能真正突破数字与物理世界的边界。这条路很长，但方向已经清晰。