扩散模型 vs 自回归：视频生成架构的 2026 路线之争

2026 年，视频生成模型的技术路线分化得愈发清晰。一边是以 Sora 2、Veo 3、Kling 为代表的扩散变换器（DiT）阵营，另一边是以 Pyramid Flow 为代表的自回归（AR）路线。两条路线的竞争，本质上是两种截然不同的「如何生成一帧」的哲学。 DiT 架构在 2026 年处于绝对主导地位。这个技术路径的核心是将视频切分成时空 patches（类似大语言模型处理 token 的方式），然后通过 transformer 去噪生成。2023 年 Peebles & Xie 的论文奠定了这个方向的基础，几乎所有主流商业视频模型都在 DiT 基础上演进。 DiT 的优势在于生成质量高、长视频一致性相对可控。但瓶颈同样明显：二次方注意力复杂度导致生成时间随时长急剧增长，长程时间一致性仍是痛点。自回归路线（AR）的核心是逐帧生成，下一帧 conditioning 上一帧。Pyramid Flow 用了金字塔式流匹配来优化，可以在 10 秒视频上做到不错的一致性。AR 的理论优势是长视频下的一致性天花板更高，但实践中错误会累积，推理速度慢到无法接受。两条路线都在互相借鉴。DiT 模型在加入更长时间建模模块，AR 模型在借助 diffusion 的训练技巧。从工程角度，DiT 仍会是商业落地的主流选择。对于开发者来说，Kling、Seedance、Veo 3 都是 DiT，选择哪个取决于场景：追求一致性选 Veo 3，追求速度选 Kling，追求开源选 Wan/CogVideoX。AR 路线短期更适合作为补充研究，而不是生产选型。