当前视频生成模型已能合成逼真的单镜头视频,但真实叙事需要多镜头场景并保持一致性。arXiv 近期发表的论文提出 Long Context Tuning(LCT)方法,为这一难题提供新训练范式。 ## 核心思路 LCT 将预训练单-shot 视频扩散模型的上下文窗口扩展,让模型直接从数据学习场景级一致性,而非依赖后处理拼凑。技术层面,LCT 将全注意力机制从单镜头扩展到场景内所有镜头,配合交织式 3D 位置编码;同时引入异步噪声策略,支持联合生成和自回归生成,且无需额外参数。 具有双向注意力的模型在 LCT 后可进一步微调为上下文因果注意力模式,通过 KV-Cache 实现高效自回归推理——视频可以一段一段续写,而非一次性全部渲染。 ## 实践意义 LCT 带来的直接变化是「组合生成」和「交互式镜头扩展」能力:模型不仅理解「这是连续故事」,还能根据用户输入动态延展下一个镜头。这为 AI 视频从「展示片段」走向「讲述故事」提供了技术基础。 ## 写在最后 视频生成正从「能看」走向「能讲」。LCT 的价值在于不依赖更大模型或算力,而是通过改进训练范式让现有模型「学会连贯思考」。这种效率导向的技术路径,或许才是视频生成真正进入内容生产流水线的正确方式。