稀疏注意力新突破:「上下文混合」让长视频生成成本降至近线性

视频生成模型正面临一个根本性挑战:如何在数分钟视频中保持角色、动作和场景一致性,同时不让计算成本爆炸。扩散变换器(DiT)的自注意力在长序列上呈二次方增长,使得长视频生成成为内存噩梦。OpenReview一篇论文提出了「上下文混合」(MoC)模块,将长视频生成重构为内部信息检索任务:每个查询动态选择少数关键片段加上锚点进行注意力计算,因果路由防止循环闭合。模型在数据规模扩大中逐渐稀疏化,实现近线性扩展,使分钟级内容的一致性成为可能。这一思路与LLM领域KV Cache压缩的技术趋势同源——本质上都是用「选择性保留」代替「全部保留」来对抗内存瓶颈。MoC的意义在于:视频生成不再依赖更大的模型,而是通过更智能的信息管理实现更长的生成。