大模型机器人的空间盲区被攻破：RAM模型让机器人真正看懂三维世界

视觉语言大模型（VLM）很强，但有一个致命短板：它们本质上是在看二维图像，而真实世界的机器人操作需要精确的三维空间感知——物体在哪里、朝向如何、距离多远、能否被抓取。这个gap一直困扰着具身智能的落地。浙江人形机器人创新中心联合香港中文大学、浙江大学等机构，在国际顶刊《Science Robotics》上发表了RAM（Retrieval-Augmented Manipulation）三维空间理解与操作模型，首次系统性地解决了VLM的三维空间感知缺陷。 RAM的核心思路是检索增强：不再让模型硬记所有三维知识，而是构建一个外部三维知识库，运行时动态检索与当前任务相关的空间信息。这相当于给VLM装了一个外接大脑，专门处理空间推理。对比端到端重新训练VLMoE的方式，这种方案成本低、迁移快，且不需要破坏原模型能力。实机验证结果令人印象深刻。在人形机器人平台上，语言指令驱动操作平均成功率达89.17%，图像引导操作成功率达92%。RAM还支持GPT、Qwen-VL等多款主流VLM，具备良好的模型兼容性——这意味着现有模型几乎不需要重新训练就能获得空间智能。为什么这值得关注？过去，机器人要实现可靠的抓取和操作，要么需要昂贵的端到端训练，要么依赖规则引擎但精度有限。RAM代表了一条中间路线：借助检索机制，在不完全重训的情况下，让基础模型获得接近专训的空间能力。这种外接知识库的范式有潜力迁移到其他需要精确空间推理的场景——比如自动驾驶的环境感知、工业机器人的精密装配。具身智能走到今天，缺的不是通用语言能力，而是物理世界的空间常识。RAM迈出了有趣的一步。