Sparse Forcing：稀疏注意力让视频生成质量速度双提升

视频生成领域一直面临两难：生成时间越长，全注意力机制的计算成本就越高。以往优化总是以质量换速度——但 Meta 与 UCSB 研究人员提出的 Sparse Forcing（arXiv:2604.21221）证明，稀疏注意力可以质量和速度双提升。核心洞察：自回归扩散模型的注意力只集中在少数关键视觉块上，形成隐式时空记忆。研究团队据此设计了 PBSA（Persistent Block-Sparse Attention）——动态学习压缩、保留和更新持久块，将计算限定在局部窗口。实验数据反直觉：5 秒视频，VBench +0.26，解码加速 1.11–1.17 倍，KV Cache 峰值内存降低 42%。更长的 20 秒视频 +0.68 VBench、1.22 倍加速；1 分钟视频 +2.74 VBench、1.27 倍加速。时间越长收益越大。质量为何反而提升？强制模型学会哪些信息值得保留，本质上是结构化正则化——减少噪声传播，让内容更连贯。PBSA GPU kernel 的落地实现也让稀疏计算真正可用。对行业：当视频生成走向分钟级，与其堆算力，不如让模型学会偷懒——只关注真正重要的视觉块。这也是多模态大模型长上下文优化的新思路。