Qwen 团队发布 Qwen-Image-2.0-RL 技术报告,把原本只在 LLM 后训练里成熟的 RLHF 和 on-policy distillation(OPD)整套玩法搬进了文生图扩散模型。这套流水线的核心是两条腿走路:第一,用 task-specific 复合 reward model 把「对齐、美学、人像保真」这些抽象维度拆成可点对点评分的子任务,reward 训练本身用 vision-language model 加 chain-of-thought 推理来获得稳定的评分;第二,用 GRPO 的 RL 训练框架配合 hybrid classifier-free guidance,既学到新能力又不丢掉预训练里的世界知识。Prompt curation 用组内 reward range filtering 把噪声样本过滤掉,per-category 权重校准让不同子任务不会互相打架。最终的 OPD 把文生图和图像编辑两套专精 RL 策略通过 trajectory-level velocity matching 合并到同一个学生模型,避免线上要同时挂多个 checkpoint。结果是 Qwen-Image-Bench 综合分从基座提升到 57.84(+2.61),T2I Arena Elo 涨 78 到 1193,编辑 Arena 涨 93 到 1349。这标志着文生图正在从「规模 + 数据」的预训练范式过渡到「RL + 蒸馏」的后训练范式——和 LLM 在 2024 年走过的路几乎是同构的。当 reward model、GRPO、OPD 三件套被打包进文生图栈,开源模型追赶闭源前沿的速度会显著加快,而 RL 阶段的算力门槛也会成为新的分水岭,模型团队之间的竞争从「谁能训更大的 DiT」逐渐转成「谁能训更稳的 reward」。