Flow-Map GRPO:为确定性「少步生图」打开强化学习大门

# Flow-Map GRPO:为确定性「少步生图」打开强化学习大门 少步 Flow-Map 生成器——如一致性模型、sCM、MeanFlow——过去两年一直是图像扩散模型里最快的一档:它们直接学习噪声到数据的「长途运输映射」,把采样步数压到个位数。但确定性正是它们的阿喀琉斯之踵:GRPO、PPO 这类需要随机轨迹和良好似然比的在线 RL 后训练方法,长期以来无法直接套用。 **Flow-Map GRPO**(arXiv:2607.00535,7 月 1 日)解决了这一卡点。它的核心机制是 **ASFMC(Anchored Stochastic Flow Map Composition)**:通过基于锚点的条件重采样注入随机性,同时完整保留原始 Flow-Map 的边缘概率路径。这样既不破坏少步生成的高效性,又让 GRPO 目标函数可以求梯度。作者还推导出同时适用于**单步**和**两步** Flow-Map 参数化的 GRPO 目标,并在基于 FLUX 后端的 MeanFlow 与 sCM 上验证,多项奖励/感知/任务级指标全部上涨。 最有看点的是它的工程哲学:**无需重新训练**。Flow-Map GRPO 把后训练做成「外挂」模块,直接对预训练好的确定性生成器做对齐,不需要改参数化,也不必把模型再训成原生随机模型——对存量 checkpoint 极其友好,这也意味着 FLUX、Qwen-Image、Wan 等已经上线的少步工作流未来都可以低成本接 RL。 对 GRPO+扩散社区,这是继 6 月末 Qwen-Image-2.0-RL 技术报告之后的又一个信号:**后训练范式正在从 LLM 辐射到图像生成**,而少步 Flow-Map 是这条扩展路径上一直缺位的一环。Flow-Map GRPO 补齐它以后,行业剩下的主要是工程问题——更稳定的奖励模型、更大规模的人类偏好对齐、面向特殊风格的可控强化,都会沿着这个口子铺开。