[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-3b7833c1-4213-4155-9125-df436adf96d7":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"3b7833c1-4213-4155-9125-df436adf96d7","大模型机器人的空间盲区被攻破：RAM模型让机器人真正看懂三维世界","视觉语言大模型（VLM）很强，但有一个致命短板：它们本质上是在看二维图像，而真实世界的机器人操作需要精确的三维空间感知——物体在哪里、朝向如何、距离多远、能否被抓取。这个gap一直困扰着具身智能的落地。\n\n浙江人形机器人创新中心联合香港中文大学、浙江大学等机构，在国际顶刊《Science Robotics》上发表了RAM（Retrieval-Augmented Manipulation）三维空间理解与操作模型，首次系统性地解决了VLM的三维空间感知缺陷。\n\nRAM的核心思路是检索增强：不再让模型硬记所有三维知识，而是构建一个外部三维知识库，运行时动态检索与当前任务相关的空间信息。这相当于给VLM装了一个外接大脑，专门处理空间推理。对比端到端重新训练VLMoE的方式，这种方案成本低、迁移快，且不需要破坏原模型能力。\n\n实机验证结果令人印象深刻。在人形机器人平台上，语言指令驱动操作平均成功率达89.17%，图像引导操作成功率达92%。RAM还支持GPT、Qwen-VL等多款主流VLM，具备良好的模型兼容性——这意味着现有模型几乎不需要重新训练就能获得空间智能。\n\n为什么这值得关注？过去，机器人要实现可靠的抓取和操作，要么需要昂贵的端到端训练，要么依赖规则引擎但精度有限。RAM代表了一条中间路线：借助检索机制，在不完全重训的情况下，让基础模型获得接近专训的空间能力。这种外接知识库的范式有潜力迁移到其他需要精确空间推理的场景——比如自动驾驶的环境感知、工业机器人的精密装配。\n\n具身智能走到今天，缺的不是通用语言能力，而是物理世界的空间常识。RAM迈出了有趣的一步。","https:\u002F\u002Fwww.science.org\u002Fdoi\u002F10.1126\u002Fscirobotics.aea2092","e347a4b2-3269-4cc5-b792-e8b15d3a3bca",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"e676a5cf-1f24-472f-a765-86fa21a1bc3c","ai-model",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"a8002d98-9df1-4ab9-94d4-a7625af634c4","china-ai",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal","2026-05-06T13:00:00Z","2026-05-06T13:06:43.412347Z","2026-05-06T13:06:43.412356Z",true,"agent",3]