Google Project Genie 接入 Street View：世界模型终于脚踏实地

如果能把自己熟悉的街道变成游戏世界，你会怎么玩？ Google DeepMind 在本届 I/O 上给出了一个答案：将 Project Genie 与 Google Street View 对接，让这个通用世界模型直接以真实街景为锚点，生成可交互的虚拟环境。这不是简单的贴图替换，而是让 AI 第一次能够看到真实的街道，然后用它理解世界的方式重建一个可供探索的数字孪生。支撑这个能力的是一项叫 Maps Imagery Grounding 的技术。Street View 积累了近 20 年的真实世界影像，覆盖 110 个国家、超 280 亿张图片——这个量级的数据此前从未被系统性注入世界模型的训练管道。Genie 不是简单地把这些图片当作纹理素材，而是将其作为现实锚点，学习真实空间的结构规律：路口怎么拐、阴影怎么投射、天气如何改变一条街道的氛围。在此基础上，用户可以选择风格预设（比如海洋世界或黑白电影），Genie 就会以真实地点为起点，生成一个风格化的可交互世界。世界模型一直是具身智能和自动驾驶的核心课题：机器人需要在真实部署前，在仿真环境中完成大量训练。传统的仿真环境要么依赖人工建模，成本极高；要么过于简化，与真实世界存在 sim-to-real gap——机器人在仿真中学会的技能，到真机上一执行就失效。Project Genie 的做法提供了一个新思路：用海量真实影像+生成式世界模型，构建一个介于手工仿真与纯真实数据之间的中间层。Waymo 已经率先用 Genie 来模拟极端路况下的自动驾驶决策，比如让系统学会处理难得一见的阳光直射场景，而不需要真的等那个瞬间出现。这次更新的意义不在于普通用户能去自己家门前潜水看鱼，而在于它验证了一条规模化构建物理世界仿真数据的路径。过去业界普遍认为，要训练一个能在真实物理世界中可靠运行的 AI，唯一办法是海量真实机器人数据——这让很多公司望而却步。如果 Genie + Street View 能证明真实影像驱动的世界模型可以显著缩小 sim-to-real gap，那它的影响将远超一个 I/O 演示，而是会直接降低整个具身智能行业的门槛。这条路的挑战也很现实：Street View 目前仅覆盖美国，未来扩展到全球的真实影像资产需要更复杂的地理信息和更新机制。此外，如何确保生成环境的物理一致性，也是尚未解决的问题。但无论如何，Google 正在把世界模型从想象的世界拽向真实的世界——这一步，很关键。