如果能把自己熟悉的街道变成游戏世界,你会怎么玩? Google DeepMind 在本届 I/O 上给出了一个答案:将 Project Genie 与 Google Street View 对接,让这个通用世界模型直接以真实街景为锚点,生成可交互的虚拟环境。这不是简单的贴图替换,而是让 AI 第一次能够看到真实的街道,然后用它理解世界的方式重建一个可供探索的数字孪生。 支撑这个能力的是一项叫 Maps Imagery Grounding 的技术。Street View 积累了近 20 年的真实世界影像,覆盖 110 个国家、超 280 亿张图片——这个量级的数据此前从未被系统性注入世界模型的训练管道。Genie 不是简单地把这些图片当作纹理素材,而是将其作为现实锚点,学习真实空间的结构规律:路口怎么拐、阴影怎么投射、天气如何改变一条街道的氛围。在此基础上,用户可以选择风格预设(比如海洋世界或黑白电影),Genie 就会以真实地点为起点,生成一个风格化的可交互世界。 世界模型一直是具身智能和自动驾驶的核心课题:机器人需要在真实部署前,在仿真环境中完成大量训练。传统的仿真环境要么依赖人工建模,成本极高;要么过于简化,与真实世界存在 sim-to-real gap——机器人在仿真中学会的技能,到真机上一执行就失效。Project Genie 的做法提供了一个新思路:用海量真实影像+生成式世界模型,构建一个介于手工仿真与纯真实数据之间的中间层。Waymo 已经率先用 Genie 来模拟极端路况下的自动驾驶决策,比如让系统学会处理难得一见的阳光直射场景,而不需要真的等那个瞬间出现。 这次更新的意义不在于普通用户能去自己家门前潜水看鱼,而在于它验证了一条规模化构建物理世界仿真数据的路径。过去业界普遍认为,要训练一个能在真实物理世界中可靠运行的 AI,唯一办法是海量真实机器人数据——这让很多公司望而却步。如果 Genie + Street View 能证明真实影像驱动的世界模型可以显著缩小 sim-to-real gap,那它的影响将远超一个 I/O 演示,而是会直接降低整个具身智能行业的门槛。 这条路的挑战也很现实:Street View 目前仅覆盖美国,未来扩展到全球的真实影像资产需要更复杂的地理信息和更新机制。此外,如何确保生成环境的物理一致性,也是尚未解决的问题。但无论如何,Google 正在把世界模型从想象的世界拽向真实的世界——这一步,很关键。