视频生成领域一直面临两难:生成时间越长,全注意力机制的计算成本就越高。以往优化总是以质量换速度——但 Meta 与 UCSB 研究人员提出的 Sparse Forcing(arXiv:2604.21221)证明,稀疏注意力可以质量和速度双提升。 核心洞察:自回归扩散模型的注意力只集中在少数关键视觉块上,形成隐式时空记忆。研究团队据此设计了 PBSA(Persistent Block-Sparse Attention)——动态学习压缩、保留和更新持久块,将计算限定在局部窗口。 实验数据反直觉:5 秒视频,VBench +0.26,解码加速 1.11–1.17 倍,KV Cache 峰值内存降低 42%。更长的 20 秒视频 +0.68 VBench、1.22 倍加速;1 分钟视频 +2.74 VBench、1.27 倍加速。时间越长收益越大。 质量为何反而提升?强制模型学会哪些信息值得保留,本质上是结构化正则化——减少噪声传播,让内容更连贯。PBSA GPU kernel 的落地实现也让稀疏计算真正可用。 对行业:当视频生成走向分钟级,与其堆算力,不如让模型学会偷懒——只关注真正重要的视觉块。这也是多模态大模型长上下文优化的新思路。