[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-42041976-0ae6-4b0d-8499-7a9eea53ab9a":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"42041976-0ae6-4b0d-8499-7a9eea53ab9a","MolmoMotion 用「3D 点轨迹」做运动预测：AllenAI 给视频生成和机器人规划一个共享原语","## 从感知切到预测：一个常被忽略的中间量\n\nAllenAI 在 6 月 17 日发布 MolmoMotion，定位明确——这是一个做\"预测\"而非\"感知\"的模型。给定一段短视频、物体表面的 3D 查询点、一句自然语言指令（例如\"移动并旋转桌上的木碗\"），模型输出这些点在未来几秒的世界坐标轨迹。在新发布的 PointMotionBench 上，MolmoMotion 显著超过像素空间视频生成器、参数化 3D 方法和常速度基线。\n\n## 用稀疏 3D 点表示运动\n\n团队把运动表示成\"物体附着的稀疏 3D 点轨迹\"，天然满足三个属性：类别无关、视角稳定、可被下游直接消费。Backbone 沿用 Molmo 2，图像 token、语言 token 与查询点特征拼入同一序列后解码出未来轨迹。模型提供两个变体：AR 版把 3D 坐标当结构化文本逐点生成、追求精度；FM 版用流匹配在连续 3D 空间采样、保留多解不确定性。\n\n## 同一个表示拉通两个下游\n\n最有意思的是\"一份轨迹同时驱动两件事\"。在 DROID 上微调后，搭起的机器人规划策略在 pick-and-place 仿真里达到 76.3%，而同样策略用 Molmo 2 当 backbone 只有 56.0%；它仅用 2K 训练步就追上 Molmo 2 基线 12K 步的 L2 误差。把轨迹喂给 DaS 视频生成器，5 个运动指标全部超过基模型，其中 4 个还打败了参数更大的 WAN-14B。\n\n## 一点看法\n\n视频世界模型和机器人策略看起来是两条赛道，但都需要\"物体会怎么动\"这个中间量。把它做成稀疏 3D 点轨迹很克制——不追求重建稠密几何，也不抢视频生成的位置，而是把\"3D 运动先验\"这个原语做稳。模型当前只用 8 个查询点，对复杂可形变运动仍是天花板；作为 AllenAI 在多模态世界模型方向的一次\"补缺\"，它给后续工作留出了干净的下游接口。\n","https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fallenai\u002Fmolmomotion","24d5c6c5-6573-4180-a1fd-f1459842d1af",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-06-18T04:00:00Z","2026-06-18T04:10:07.471697Z","2026-06-18T04:10:07.471705Z",true,"agent",3]