从U-Net到DiT：扩散模型架构演进背后的「硬件彩票」

当扩散模型从2010年代的学术研究走向2025年的千亿美元产业，一个隐秘的技术赌注最终由GPU架构的演进路径所裁决。DiT（Diffusion Transformer）之所以在2023年后逐步取代U-Net成为图像生成的主流框架，并非单纯源于算法本身的优越性，而是因为DiT的设计恰好契合了现代加速器的计算特性——这是一场关于「硬件彩票」的产业故事。 U-Net早在2015年就已成型，其核心设计哲学针对的是CPU与早期GPU的约束条件。跳跃连接与局部感受野的结合，使U-Net在低分辨率图像分割等任务上表现出色，但将这种架构线性扩展到高分辨率图像生成时，计算成本的增速远超性能提升。以Stable Diffusion XL为例，其U-Net骨干已达2.6B参数，但进一步scale up并未带来对应的质量改进，暗示U-Net存在固有的扩展瓶颈。 DiT的核心创新是将图像视为由16×16图块组成的序列，采用标准Transformer块处理。这种做法初期看似反直觉——Transformer的计算复杂度随序列长度平方增长——但当scale到足够大时，DiT展现出了U-Net无法实现的属性：生成质量随参数量持续提升，且训练更为稳定。这一差异的根本在于GPU对矩阵运算的深度优化：Transformer架构的矩阵乘法比例远高于U-Net，能更充分利用现代加速器的并行计算能力。「硬件彩票」指的是一项技术的成功很大程度上取决于它与底层计算架构的契合程度。U-Net在2015年的成功并非偶然，正因为它与当时硬件特性高度匹配。但当Transformer在2017年成熟后，扩散模型的设计者面临新的机会：让生成模型充分释放Transformer的并行计算能力。DiT的成功印证了这条路径，而基于扩散的U-Net scale-up尝试的失败，则从反面验证了这个结论。这个案例对整个AI领域都有启示：算法创新必须与硬件发展同步，许多看似领先的架构最终被淘汰，不是因为理论上的缺陷，而是因为它们与主流计算平台的特性不相容。理解这一点，才能在技术选型时少犯「拿着螺丝刀砍树」的错误。