DiffusionBench：21 个扩散 Transformer 告诉你，ImageNet 跑分表已经骗了行业好几年

视频/图像生成圈这两年几乎所有新模型都在和 ImageNet 上的 FID（Fréchet Inception Distance）较劲——Sora、Wan、Kling、SD3、Flux 的发布稿里无一例外。可 2026 年 6 月 23 日挂上 arXiv 的 DiffusionBench（arXiv:2606.24888）系统性地拆穿了这个"行规"：用 ImageNet FID 排出来的名次，和模型在真实 T2I（文本到图像）场景下的表现，几乎没有关系。 Leng 等人做了一个扎实的实验：他们发布了一个统一的 DiT 训练与评测框架 NanoGen，改 12 行配置就能在 ImageNet 分类生成和 T2I 之间切换，训练 T2I 的算力和 ImageNet 相当。覆盖了 RAE、VAE、pixel-space、MeanFlow 四类主流扩散方法。整套实验在 NanoGen 下训了 21 个潜在扩散模型，分别在 ImageNet 和 T2I 评测上跑分，结果让所有人沉默：两种评测下方法排名的 Pearson 相关系数只有 -0.377 到 -0.580——负相关。换句话说，"在 ImageNet 上赢了"的模型，跑到真实 prompt 上反而可能退步。针对这一问题，作者把两套评测整合成 DiffusionBench，建议研究社区以后用 DiffusionBench 取代"只报 ImageNet FID"的旧惯例。NanoGen 同时开源，意味着任何研究者都能用低成本复现并扩展这套基准。这件事的影响不小。视频生成是当前扩散 Transformer 的主战场（Sora、Wan、Kling 的核心都是 DiT），如果排名规则一直被 ImageNet FID 主导，技术路线就可能在错误的目标上优化。DiffusionBench 给出了一个明确信号：评测必须正交化，必须把"模型在用户实际使用场景下的能力"放到台面上。下一个发布 DiT 类模型的团队，如果还只报 ImageNet FID，可能要先被同行质疑了。