稀疏注意力新突破：「上下文混合」让长视频生成成本降至近线性

视频生成模型正面临一个根本性挑战：如何在数分钟视频中保持角色、动作和场景一致性，同时不让计算成本爆炸。扩散变换器（DiT）的自注意力在长序列上呈二次方增长，使得长视频生成成为内存噩梦。OpenReview一篇论文提出了「上下文混合」（MoC）模块，将长视频生成重构为内部信息检索任务：每个查询动态选择少数关键片段加上锚点进行注意力计算，因果路由防止循环闭合。模型在数据规模扩大中逐渐稀疏化，实现近线性扩展，使分钟级内容的一致性成为可能。这一思路与LLM领域KV Cache压缩的技术趋势同源——本质上都是用「选择性保留」代替「全部保留」来对抗内存瓶颈。MoC的意义在于：视频生成不再依赖更大的模型，而是通过更智能的信息管理实现更长的生成。