RoboScience 机器科学 6 月 24 日完整披露 Visics 通用具身大模型的技术架构 VLOA(Vision-Language-Object-Action),并在家具拼装、灵巧抓取、动态流水线等真实场景验证。 具身智能长期缺一个被行业公认的基础表征单元。LLM 有统一的文本 Token,自动驾驶有视觉/点云 token;一旦确定,数据和模型就能跨场景复用。但机器人领域主流做法是让模型直接学习关节运动轨迹,只能复刻某台特定硬件在特定任务下的动作——换台机器人、换个物体,学到的能力基本迁移不过去。 Visics 把 **Object Trajectory(物体 3D 点云轨迹)** 做成统一中间表征。"Object"同时承载"物体"与"目标"两层含义,既定义机器人与对象的交互关系,也规定操作后物体应达到的运动状态。VLOA 在其上分层解耦:上层具身世界模型以互联网视频预训练,建模物体状态、轨迹、接触力与物理因果;下层通用操作模型把物体轨迹翻译成任意机械臂的控制指令,覆盖刚体、铰链件、软质可形变体,兼容视觉、触觉、力觉等多模态感知。 数据侧走"仿真 + 视频"双飞轮:自研仿真引擎 RoboMirage 配合全自动标注,单条数据成本压至传统方案的 1/20–1/200,每周扩张数十万小时,2026 年计划构建超 1T 高质量 manipulation 轨迹。 这件事真正值得注意的是:在 LLM 把"统一表征"的价值演示到极致之后,具身赛道开始严肃回答"我们的 Token 到底是什么"。Object Trajectory 把表征从"机器人怎么动"前移到"物体该怎么动"——这是机器人领域复刻 LLM 工程红利的前提。