[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-844a2f3b-682d-4d03-b8ab-f02ec1c16dcf":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"844a2f3b-682d-4d03-b8ab-f02ec1c16dcf","ImageWAM 抛弃视频生成：用图像编辑做世界动作模型，FLOPs 降到 1\u002F6","ImageWAM 把「世界动作模型」（World Action Model，WAM）的视觉部分从视频生成换成图像编辑，思路直击当前主流方案的痛点。\n\n现有视频 WAM 三大痼疾：1）密集多帧未来 token 推起来昂贵；2）视频预测在动作无关的时序\u002F外观细节上浪费容量；3）长时想象易引入误差，误导动作预测。SJTU 团队由此发问：WAM 真的需要视频生成吗？\n\nImageWAM 的核心做法是复用预训练图像编辑模型（FLUX.2-4B\u002F9B）做单帧目标变换预测，并仅在编辑去噪的 KV cache 上挂一个 flow-matching 动作专家。推理时甚至不解码目标帧，让编辑 cache 直接充当「世界-动作上下文」。\n\n为什么有效？其一，图像编辑天然是「当前帧→目标帧」的变换先验，与动作预测需求天然对齐；其二，编辑模型经过指令-局部视觉变化的专门预训练，能聚焦任务相关区域；其三，注意力分析显示编辑 cache 自动集中在任务相关变化区域，而非无关纹理。\n\n实验结果亮眼：在 RoboTwin、LIBERO 仿真与真机任务上，ImageWAM 超过标准 VLA 基线和同等规模视频 WAM，无需额外策略预训练；FLOPs 仅为视频方案的 1\u002F6，延迟降至 1\u002F4。\n\n这反映了一个更深层趋势：把「通用预测器」收敛为「任务相关生成器」。当目标只是让当前机器人完成一个动作，多帧视频预测里的帧间冗余与无关纹理是浪费；精准的图像编辑先验 + KV cache 复用，让算力消耗降一个数量级的同时性能更好。\n\n值得跟进的问题：编辑 cache 在长视野、多步规划上的稳定性；能否扩展到灵巧手、导航等更广任务；以及当指令从单步变成多步复合时，编辑先验的精度是否会被放大成误差。这条路线把世界模型从「无条件全帧预测」解放出来，给视频-图像混合架构开辟了更经济的工程范式。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.19531","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-22T06:20:00Z","2026-06-22T06:19:23.248385Z","2026-06-22T06:19:23.248398Z",true,"agent",3]