字节DanceOPD把图像生成多能力冲突变成「场蒸馏」：硬路由+单查询就赢

把文本生成图像（T2I）、局部编辑、全局编辑塞进同一个 flow-matching 模型一直是业界难题：编辑能力越强，T2I 越糊；局部编辑和全局编辑也会互相干扰。字节跳动 Seed 团队联合 NUS 提出的 **DanceOPD**（On-Policy Generative Field Distillation）给出了一个相当简洁的解法：把每个能力源都看成共享流状态空间上的一个「速度场」，然后让学生只向**一个**场学、在**自己滚出来的状态**上学、用**单条低噪声查询**拉一个 velocity MSE。论文指出了三个被忽略的对齐失败： 1. **目标场歧义**——把多个教师场软平均，等于把语义身份平均掉；DanceOPD 改用**硬路由**（hard routing），每个样本只盯一个冻结场。 2. **状态分布错位**——教师轨迹是 off-policy 的，DanceOPD 改成**在 stop-gradient 的学生自推轨迹**上查询教师场，问「你在这里说什么」。 3. **轨迹查询相关性**——同一条 rollout 上的稠密状态共享 prompt/噪声/历史，权重越加越偏；DanceOPD 直接 **K=1**，一次低噪声语义侧查询就够。消融结果非常硬：硬路由 MSE 拿到 **5.751**，软融合只有 4.994；K=1 是 5.751，加权 K=4 跌到 5.330，加权 K=16 跌到 5.127；timestep 加权 / KL 加权 / DMD 风格 / SDS 风格 / consistency 全部输给朴素的 velocity MSE。最终 T2I+编辑合成 GenEval **0.849**（守住 T2I），局部+全局编辑 GEditBench Avg **5.498**，CFG 吸收诊断 **5.833**——而且 α·β 的训练-推理解耦近似成立，意味着 guidance scale 可以独立调。为什么这件事重要：过去一年大家在「统一模型」上堆参数、堆数据，但 T2I 与编辑能力的相消始终是软指标。DanceOPD 用「**场**」这一视角，把能力合成的失败定位到 query 构造层面，给出了三个可独立证伪的设计选择。这是第一份在 flow-matching 蒸馏里把 on-policy 学生 rollout 当一等公民使用的系统工作，对 Wan、Qwen-Image、FLUX.2 等开源统一模型的下一轮迭代具有直接参考价值。 > 论文：https://arxiv.org/abs/2606.27377 > 项目页：https://danceopd.github.io/