InterleaveThinker:用 Planner+Critic 双 agent 流水线让任何图像生成器获得交错生成能力,性能对齐 Nano Banana 与 GPT-5

InterleaveThinker(arXiv 2606.13679)提出首个多 agent 流水线,把任何现有图像生成器(FLUX.2、SD 系等)变成能输出「文本+图像+文本」交错序列的模型。框架含 Planner agent 拆解图文序列和 Critic agent 评估修正,配合三套 SFT/RL 数据集(80k+112k+13k),用 step-wise GRPO 训练。性能对标 Nano Banana 和 GPT-5,并让 FLUX.2-klein 在 WISE 上从 0.47 跳到 0.73、RISE 从 13.3 升到 28.9。代码与模型已开源。