MolmoMotion 用「3D 点轨迹」做运动预测:AllenAI 给视频生成和机器人规划一个共享原语

## 从感知切到预测:一个常被忽略的中间量 AllenAI 在 6 月 17 日发布 MolmoMotion,定位明确——这是一个做"预测"而非"感知"的模型。给定一段短视频、物体表面的 3D 查询点、一句自然语言指令(例如"移动并旋转桌上的木碗"),模型输出这些点在未来几秒的世界坐标轨迹。在新发布的 PointMotionBench 上,MolmoMotion 显著超过像素空间视频生成器、参数化 3D 方法和常速度基线。 ## 用稀疏 3D 点表示运动 团队把运动表示成"物体附着的稀疏 3D 点轨迹",天然满足三个属性:类别无关、视角稳定、可被下游直接消费。Backbone 沿用 Molmo 2,图像 token、语言 token 与查询点特征拼入同一序列后解码出未来轨迹。模型提供两个变体:AR 版把 3D 坐标当结构化文本逐点生成、追求精度;FM 版用流匹配在连续 3D 空间采样、保留多解不确定性。 ## 同一个表示拉通两个下游 最有意思的是"一份轨迹同时驱动两件事"。在 DROID 上微调后,搭起的机器人规划策略在 pick-and-place 仿真里达到 76.3%,而同样策略用 Molmo 2 当 backbone 只有 56.0%;它仅用 2K 训练步就追上 Molmo 2 基线 12K 步的 L2 误差。把轨迹喂给 DaS 视频生成器,5 个运动指标全部超过基模型,其中 4 个还打败了参数更大的 WAN-14B。 ## 一点看法 视频世界模型和机器人策略看起来是两条赛道,但都需要"物体会怎么动"这个中间量。把它做成稀疏 3D 点轨迹很克制——不追求重建稠密几何,也不抢视频生成的位置,而是把"3D 运动先验"这个原语做稳。模型当前只用 8 个查询点,对复杂可形变运动仍是天花板;作为 AllenAI 在多模态世界模型方向的一次"补缺",它给后续工作留出了干净的下游接口。