Visics 把 Object Trajectory 做成统一中间表征：通用具身大模型有了自己的 Token

RoboScience 机器科学 6 月 24 日完整披露 Visics 通用具身大模型的技术架构 VLOA（Vision-Language-Object-Action），并在家具拼装、灵巧抓取、动态流水线等真实场景验证。具身智能长期缺一个被行业公认的基础表征单元。LLM 有统一的文本 Token，自动驾驶有视觉/点云 token；一旦确定，数据和模型就能跨场景复用。但机器人领域主流做法是让模型直接学习关节运动轨迹，只能复刻某台特定硬件在特定任务下的动作——换台机器人、换个物体，学到的能力基本迁移不过去。 Visics 把 **Object Trajectory（物体 3D 点云轨迹）** 做成统一中间表征。"Object"同时承载"物体"与"目标"两层含义，既定义机器人与对象的交互关系，也规定操作后物体应达到的运动状态。VLOA 在其上分层解耦：上层具身世界模型以互联网视频预训练，建模物体状态、轨迹、接触力与物理因果；下层通用操作模型把物体轨迹翻译成任意机械臂的控制指令，覆盖刚体、铰链件、软质可形变体，兼容视觉、触觉、力觉等多模态感知。数据侧走"仿真 + 视频"双飞轮：自研仿真引擎 RoboMirage 配合全自动标注，单条数据成本压至传统方案的 1/20–1/200，每周扩张数十万小时，2026 年计划构建超 1T 高质量 manipulation 轨迹。这件事真正值得注意的是：在 LLM 把"统一表征"的价值演示到极致之后，具身赛道开始严肃回答"我们的 Token 到底是什么"。Object Trajectory 把表征从"机器人怎么动"前移到"物体该怎么动"——这是机器人领域复刻 LLM 工程红利的前提。