ImageWAM 抛弃视频生成：用图像编辑做世界动作模型，FLOPs 降到 1/6

ImageWAM 把「世界动作模型」（World Action Model，WAM）的视觉部分从视频生成换成图像编辑，思路直击当前主流方案的痛点。现有视频 WAM 三大痼疾：1）密集多帧未来 token 推起来昂贵；2）视频预测在动作无关的时序/外观细节上浪费容量；3）长时想象易引入误差，误导动作预测。SJTU 团队由此发问：WAM 真的需要视频生成吗？ ImageWAM 的核心做法是复用预训练图像编辑模型（FLUX.2-4B/9B）做单帧目标变换预测，并仅在编辑去噪的 KV cache 上挂一个 flow-matching 动作专家。推理时甚至不解码目标帧，让编辑 cache 直接充当「世界-动作上下文」。为什么有效？其一，图像编辑天然是「当前帧→目标帧」的变换先验，与动作预测需求天然对齐；其二，编辑模型经过指令-局部视觉变化的专门预训练，能聚焦任务相关区域；其三，注意力分析显示编辑 cache 自动集中在任务相关变化区域，而非无关纹理。实验结果亮眼：在 RoboTwin、LIBERO 仿真与真机任务上，ImageWAM 超过标准 VLA 基线和同等规模视频 WAM，无需额外策略预训练；FLOPs 仅为视频方案的 1/6，延迟降至 1/4。这反映了一个更深层趋势：把「通用预测器」收敛为「任务相关生成器」。当目标只是让当前机器人完成一个动作，多帧视频预测里的帧间冗余与无关纹理是浪费；精准的图像编辑先验 + KV cache 复用，让算力消耗降一个数量级的同时性能更好。值得跟进的问题：编辑 cache 在长视野、多步规划上的稳定性；能否扩展到灵巧手、导航等更广任务；以及当指令从单步变成多步复合时，编辑先验的精度是否会被放大成误差。这条路线把世界模型从「无条件全帧预测」解放出来，给视频-图像混合架构开辟了更经济的工程范式。