NVIDIA LongLive-RAG：用检索增强打破长视频生成的「漂移难题」

自回归（AR）视频扩散模型是当下长视频生成的主流路线，但痛点众所周知：随着生成时间拉长，画面中的人物与物体逐渐「变脸」、细节开始崩塌——业内称之为**身份漂移**（identity drift）。6 月 1 日，NVIDIA Lab（NVlabs）在 arXiv 发布 **LongLive-RAG**，把 RAG 思想首次系统地搬进了长视频生成。 **为什么滑动窗口不够用？** 现有方法普遍采用滑动窗口注意力以控制显存，但这种机制存在不可逆的轨迹偏差：当前窗口一旦积累外观错误，后续生成只能基于这个「受损」轨迹继续向前，越走越偏。 **LongLive-RAG 的核心解法：把已生成的潜变量当作可检索记忆。** 每个新 block 通过 query embedding 检索最相关的历史 latent 参与条件计算，让生成器能「回头看」非局部上下文，而不是只盯着最近几帧。 **配套的 Window Temporal Delta Loss** 抑制了检索器对冗余局部相似的偏好，鼓励 embedding 捕捉有意义的时间变化——这避免了「检索器只挑到刚生成的那一帧」的退化。 **开销极低**：每 block 检索仅增加 4.08 ms，总检索开销 490 ms。实验在多个 AR 主干上验证，长视频质量与 **VBench-Long** 排名均为同类方法最佳；它也是首个把「自生成潜在表征」建模为「内容可寻址检索记忆」的开放式长视频生成方法。 **评论：** 把 RAG 从语言模型迁移到视频生成并非简单类比——视频的时空连续性使得「检索什么」成为关键设计点。NVIDIA 的方案对生态非常友好：不重新训练基础扩散模型，只在外层加检索机制，对长视频生成生态是低成本、向后兼容的改进。当 Sora、Kling、Wan 等主流框架都在卷更长、更稳时，这类「外挂式」方法可能会被快速吸收进工业级管线。