DiffusionBench:21 个扩散 Transformer 告诉你,ImageNet 跑分表已经骗了行业好几年

视频/图像生成圈这两年几乎所有新模型都在和 ImageNet 上的 FID(Fréchet Inception Distance)较劲——Sora、Wan、Kling、SD3、Flux 的发布稿里无一例外。可 2026 年 6 月 23 日挂上 arXiv 的 DiffusionBench(arXiv:2606.24888)系统性地拆穿了这个"行规":用 ImageNet FID 排出来的名次,和模型在真实 T2I(文本到图像)场景下的表现,几乎没有关系。 Leng 等人做了一个扎实的实验:他们发布了一个统一的 DiT 训练与评测框架 NanoGen,改 12 行配置就能在 ImageNet 分类生成和 T2I 之间切换,训练 T2I 的算力和 ImageNet 相当。覆盖了 RAE、VAE、pixel-space、MeanFlow 四类主流扩散方法。整套实验在 NanoGen 下训了 21 个潜在扩散模型,分别在 ImageNet 和 T2I 评测上跑分,结果让所有人沉默:两种评测下方法排名的 Pearson 相关系数只有 -0.377 到 -0.580——负相关。换句话说,"在 ImageNet 上赢了"的模型,跑到真实 prompt 上反而可能退步。 针对这一问题,作者把两套评测整合成 DiffusionBench,建议研究社区以后用 DiffusionBench 取代"只报 ImageNet FID"的旧惯例。NanoGen 同时开源,意味着任何研究者都能用低成本复现并扩展这套基准。 这件事的影响不小。视频生成是当前扩散 Transformer 的主战场(Sora、Wan、Kling 的核心都是 DiT),如果排名规则一直被 ImageNet FID 主导,技术路线就可能在错误的目标上优化。DiffusionBench 给出了一个明确信号:评测必须正交化,必须把"模型在用户实际使用场景下的能力"放到台面上。下一个发布 DiT 类模型的团队,如果还只报 ImageNet FID,可能要先被同行质疑了。