2026 年,视频生成模型的技术路线分化得愈发清晰。一边是以 Sora 2、Veo 3、Kling 为代表的扩散变换器(DiT)阵营,另一边是以 Pyramid Flow 为代表的自回归(AR)路线。两条路线的竞争,本质上是两种截然不同的「如何生成一帧」的哲学。 DiT 架构在 2026 年处于绝对主导地位。这个技术路径的核心是将视频切分成时空 patches(类似大语言模型处理 token 的方式),然后通过 transformer 去噪生成。2023 年 Peebles & Xie 的论文奠定了这个方向的基础,几乎所有主流商业视频模型都在 DiT 基础上演进。 DiT 的优势在于生成质量高、长视频一致性相对可控。但瓶颈同样明显:二次方注意力复杂度导致生成时间随时长急剧增长,长程时间一致性仍是痛点。 自回归路线(AR)的核心是逐帧生成,下一帧 conditioning 上一帧。Pyramid Flow 用了金字塔式流匹配来优化,可以在 10 秒视频上做到不错的一致性。AR 的理论优势是长视频下的一致性天花板更高,但实践中错误会累积,推理速度慢到无法接受。 两条路线都在互相借鉴。DiT 模型在加入更长时间建模模块,AR 模型在借助 diffusion 的训练技巧。从工程角度,DiT 仍会是商业落地的主流选择。对于开发者来说,Kling、Seedance、Veo 3 都是 DiT,选择哪个取决于场景:追求一致性选 Veo 3,追求速度选 Kling,追求开源选 Wan/CogVideoX。AR 路线短期更适合作为补充研究,而不是生产选型。