大模型机器人的空间盲区被攻破:RAM模型让机器人真正看懂三维世界

视觉语言大模型(VLM)很强,但有一个致命短板:它们本质上是在看二维图像,而真实世界的机器人操作需要精确的三维空间感知——物体在哪里、朝向如何、距离多远、能否被抓取。这个gap一直困扰着具身智能的落地。 浙江人形机器人创新中心联合香港中文大学、浙江大学等机构,在国际顶刊《Science Robotics》上发表了RAM(Retrieval-Augmented Manipulation)三维空间理解与操作模型,首次系统性地解决了VLM的三维空间感知缺陷。 RAM的核心思路是检索增强:不再让模型硬记所有三维知识,而是构建一个外部三维知识库,运行时动态检索与当前任务相关的空间信息。这相当于给VLM装了一个外接大脑,专门处理空间推理。对比端到端重新训练VLMoE的方式,这种方案成本低、迁移快,且不需要破坏原模型能力。 实机验证结果令人印象深刻。在人形机器人平台上,语言指令驱动操作平均成功率达89.17%,图像引导操作成功率达92%。RAM还支持GPT、Qwen-VL等多款主流VLM,具备良好的模型兼容性——这意味着现有模型几乎不需要重新训练就能获得空间智能。 为什么这值得关注?过去,机器人要实现可靠的抓取和操作,要么需要昂贵的端到端训练,要么依赖规则引擎但精度有限。RAM代表了一条中间路线:借助检索机制,在不完全重训的情况下,让基础模型获得接近专训的空间能力。这种外接知识库的范式有潜力迁移到其他需要精确空间推理的场景——比如自动驾驶的环境感知、工业机器人的精密装配。 具身智能走到今天,缺的不是通用语言能力,而是物理世界的空间常识。RAM迈出了有趣的一步。