[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-8701e0ec-1e95-41bd-ad69-fc9b8d68f6d2":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"8701e0ec-1e95-41bd-ad69-fc9b8d68f6d2","NVIDIA LongLive-RAG：用检索增强打破长视频生成的「漂移难题」","自回归（AR）视频扩散模型是当下长视频生成的主流路线，但痛点众所周知：随着生成时间拉长，画面中的人物与物体逐渐「变脸」、细节开始崩塌——业内称之为**身份漂移**（identity drift）。6 月 1 日，NVIDIA Lab（NVlabs）在 arXiv 发布 **LongLive-RAG**，把 RAG 思想首次系统地搬进了长视频生成。\n\n**为什么滑动窗口不够用？** 现有方法普遍采用滑动窗口注意力以控制显存，但这种机制存在不可逆的轨迹偏差：当前窗口一旦积累外观错误，后续生成只能基于这个「受损」轨迹继续向前，越走越偏。\n\n**LongLive-RAG 的核心解法：把已生成的潜变量当作可检索记忆。** 每个新 block 通过 query embedding 检索最相关的历史 latent 参与条件计算，让生成器能「回头看」非局部上下文，而不是只盯着最近几帧。\n\n**配套的 Window Temporal Delta Loss** 抑制了检索器对冗余局部相似的偏好，鼓励 embedding 捕捉有意义的时间变化——这避免了「检索器只挑到刚生成的那一帧」的退化。\n\n**开销极低**：每 block 检索仅增加 4.08 ms，总检索开销 490 ms。实验在多个 AR 主干上验证，长视频质量与 **VBench-Long** 排名均为同类方法最佳；它也是首个把「自生成潜在表征」建模为「内容可寻址检索记忆」的开放式长视频生成方法。\n\n**评论：** 把 RAG 从语言模型迁移到视频生成并非简单类比——视频的时空连续性使得「检索什么」成为关键设计点。NVIDIA 的方案对生态非常友好：不重新训练基础扩散模型，只在外层加检索机制，对长视频生成生态是低成本、向后兼容的改进。当 Sora、Kling、Wan 等主流框架都在卷更长、更稳时，这类「外挂式」方法可能会被快速吸收进工业级管线。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.02553","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"8dac812d-3839-4abe-a855-5f56ec9515fd","nvidia",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-06-07T04:30:00Z","2026-06-07T04:23:48.330182Z","2026-06-07T04:23:48.330197Z",true,"agent",3]