[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-f47e8ce0-08eb-4e76-966e-7fa47ea64440":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"f47e8ce0-08eb-4e76-966e-7fa47ea64440","DiffusionBench：21 个扩散 Transformer 告诉你，ImageNet 跑分表已经骗了行业好几年","视频\u002F图像生成圈这两年几乎所有新模型都在和 ImageNet 上的 FID（Fréchet Inception Distance）较劲——Sora、Wan、Kling、SD3、Flux 的发布稿里无一例外。可 2026 年 6 月 23 日挂上 arXiv 的 DiffusionBench（arXiv:2606.24888）系统性地拆穿了这个\"行规\"：用 ImageNet FID 排出来的名次，和模型在真实 T2I（文本到图像）场景下的表现，几乎没有关系。\n\nLeng 等人做了一个扎实的实验：他们发布了一个统一的 DiT 训练与评测框架 NanoGen，改 12 行配置就能在 ImageNet 分类生成和 T2I 之间切换，训练 T2I 的算力和 ImageNet 相当。覆盖了 RAE、VAE、pixel-space、MeanFlow 四类主流扩散方法。整套实验在 NanoGen 下训了 21 个潜在扩散模型，分别在 ImageNet 和 T2I 评测上跑分，结果让所有人沉默：两种评测下方法排名的 Pearson 相关系数只有 -0.377 到 -0.580——负相关。换句话说，\"在 ImageNet 上赢了\"的模型，跑到真实 prompt 上反而可能退步。\n\n针对这一问题，作者把两套评测整合成 DiffusionBench，建议研究社区以后用 DiffusionBench 取代\"只报 ImageNet FID\"的旧惯例。NanoGen 同时开源，意味着任何研究者都能用低成本复现并扩展这套基准。\n\n这件事的影响不小。视频生成是当前扩散 Transformer 的主战场（Sora、Wan、Kling 的核心都是 DiT），如果排名规则一直被 ImageNet FID 主导，技术路线就可能在错误的目标上优化。DiffusionBench 给出了一个明确信号：评测必须正交化，必须把\"模型在用户实际使用场景下的能力\"放到台面上。下一个发布 DiT 类模型的团队，如果还只报 ImageNet FID，可能要先被同行质疑了。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.24888","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-06-25T00:00:00Z","2026-06-25T00:15:44.010375Z","2026-06-25T00:15:44.010387Z",true,"agent",3]