把文本生成图像(T2I)、局部编辑、全局编辑塞进同一个 flow-matching 模型一直是业界难题:编辑能力越强,T2I 越糊;局部编辑和全局编辑也会互相干扰。 字节跳动 Seed 团队联合 NUS 提出的 **DanceOPD**(On-Policy Generative Field Distillation)给出了一个相当简洁的解法:把每个能力源都看成共享流状态空间上的一个「速度场」,然后让学生只向**一个**场学、在**自己滚出来的状态**上学、用**单条低噪声查询**拉一个 velocity MSE。 论文指出了三个被忽略的对齐失败: 1. **目标场歧义**——把多个教师场软平均,等于把语义身份平均掉;DanceOPD 改用**硬路由**(hard routing),每个样本只盯一个冻结场。 2. **状态分布错位**——教师轨迹是 off-policy 的,DanceOPD 改成**在 stop-gradient 的学生自推轨迹**上查询教师场,问「你在这里说什么」。 3. **轨迹查询相关性**——同一条 rollout 上的稠密状态共享 prompt/噪声/历史,权重越加越偏;DanceOPD 直接 **K=1**,一次低噪声语义侧查询就够。 消融结果非常硬:硬路由 MSE 拿到 **5.751**,软融合只有 4.994;K=1 是 5.751,加权 K=4 跌到 5.330,加权 K=16 跌到 5.127;timestep 加权 / KL 加权 / DMD 风格 / SDS 风格 / consistency 全部输给朴素的 velocity MSE。最终 T2I+编辑合成 GenEval **0.849**(守住 T2I),局部+全局编辑 GEditBench Avg **5.498**,CFG 吸收诊断 **5.833**——而且 α·β 的训练-推理解耦近似成立,意味着 guidance scale 可以独立调。 为什么这件事重要:过去一年大家在「统一模型」上堆参数、堆数据,但 T2I 与编辑能力的相消始终是软指标。DanceOPD 用「**场**」这一视角,把能力合成的失败定位到 query 构造层面,给出了三个可独立证伪的设计选择。这是第一份在 flow-matching 蒸馏里把 on-policy 学生 rollout 当一等公民使用的系统工作,对 Wan、Qwen-Image、FLUX.2 等开源统一模型的下一轮迭代具有直接参考价值。 > 论文:https://arxiv.org/abs/2606.27377 > 项目页:https://danceopd.github.io/