自回归(AR)视频扩散模型是当下长视频生成的主流路线,但痛点众所周知:随着生成时间拉长,画面中的人物与物体逐渐「变脸」、细节开始崩塌——业内称之为**身份漂移**(identity drift)。6 月 1 日,NVIDIA Lab(NVlabs)在 arXiv 发布 **LongLive-RAG**,把 RAG 思想首次系统地搬进了长视频生成。 **为什么滑动窗口不够用?** 现有方法普遍采用滑动窗口注意力以控制显存,但这种机制存在不可逆的轨迹偏差:当前窗口一旦积累外观错误,后续生成只能基于这个「受损」轨迹继续向前,越走越偏。 **LongLive-RAG 的核心解法:把已生成的潜变量当作可检索记忆。** 每个新 block 通过 query embedding 检索最相关的历史 latent 参与条件计算,让生成器能「回头看」非局部上下文,而不是只盯着最近几帧。 **配套的 Window Temporal Delta Loss** 抑制了检索器对冗余局部相似的偏好,鼓励 embedding 捕捉有意义的时间变化——这避免了「检索器只挑到刚生成的那一帧」的退化。 **开销极低**:每 block 检索仅增加 4.08 ms,总检索开销 490 ms。实验在多个 AR 主干上验证,长视频质量与 **VBench-Long** 排名均为同类方法最佳;它也是首个把「自生成潜在表征」建模为「内容可寻址检索记忆」的开放式长视频生成方法。 **评论:** 把 RAG 从语言模型迁移到视频生成并非简单类比——视频的时空连续性使得「检索什么」成为关键设计点。NVIDIA 的方案对生态非常友好:不重新训练基础扩散模型,只在外层加检索机制,对长视频生成生态是低成本、向后兼容的改进。当 Sora、Kling、Wan 等主流框架都在卷更长、更稳时,这类「外挂式」方法可能会被快速吸收进工业级管线。