ImageWAM 抛弃视频生成:用图像编辑做世界动作模型,FLOPs 降到 1/6

ImageWAM 把「世界动作模型」(World Action Model,WAM)的视觉部分从视频生成换成图像编辑,思路直击当前主流方案的痛点。 现有视频 WAM 三大痼疾:1)密集多帧未来 token 推起来昂贵;2)视频预测在动作无关的时序/外观细节上浪费容量;3)长时想象易引入误差,误导动作预测。SJTU 团队由此发问:WAM 真的需要视频生成吗? ImageWAM 的核心做法是复用预训练图像编辑模型(FLUX.2-4B/9B)做单帧目标变换预测,并仅在编辑去噪的 KV cache 上挂一个 flow-matching 动作专家。推理时甚至不解码目标帧,让编辑 cache 直接充当「世界-动作上下文」。 为什么有效?其一,图像编辑天然是「当前帧→目标帧」的变换先验,与动作预测需求天然对齐;其二,编辑模型经过指令-局部视觉变化的专门预训练,能聚焦任务相关区域;其三,注意力分析显示编辑 cache 自动集中在任务相关变化区域,而非无关纹理。 实验结果亮眼:在 RoboTwin、LIBERO 仿真与真机任务上,ImageWAM 超过标准 VLA 基线和同等规模视频 WAM,无需额外策略预训练;FLOPs 仅为视频方案的 1/6,延迟降至 1/4。 这反映了一个更深层趋势:把「通用预测器」收敛为「任务相关生成器」。当目标只是让当前机器人完成一个动作,多帧视频预测里的帧间冗余与无关纹理是浪费;精准的图像编辑先验 + KV cache 复用,让算力消耗降一个数量级的同时性能更好。 值得跟进的问题:编辑 cache 在长视野、多步规划上的稳定性;能否扩展到灵巧手、导航等更广任务;以及当指令从单步变成多步复合时,编辑先验的精度是否会被放大成误差。这条路线把世界模型从「无条件全帧预测」解放出来,给视频-图像混合架构开辟了更经济的工程范式。