[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-b950b487-2b1f-4ece-ad6e-d57cf94f1f84":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"b950b487-2b1f-4ece-ad6e-d57cf94f1f84","稀疏注意力新突破：「上下文混合」让长视频生成成本降至近线性","视频生成模型正面临一个根本性挑战：如何在数分钟视频中保持角色、动作和场景一致性，同时不让计算成本爆炸。扩散变换器（DiT）的自注意力在长序列上呈二次方增长，使得长视频生成成为内存噩梦。OpenReview一篇论文提出了「上下文混合」（MoC）模块，将长视频生成重构为内部信息检索任务：每个查询动态选择少数关键片段加上锚点进行注意力计算，因果路由防止循环闭合。模型在数据规模扩大中逐渐稀疏化，实现近线性扩展，使分钟级内容的一致性成为可能。这一思路与LLM领域KV Cache压缩的技术趋势同源——本质上都是用「选择性保留」代替「全部保留」来对抗内存瓶颈。MoC的意义在于：视频生成不再依赖更大的模型，而是通过更智能的信息管理实现更长的生成。","https:\u002F\u002Fopenreview.net\u002Fforum?id=y6XJZlEC2x","ec0a79b7-694c-4caf-8071-91315d69c706",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-06-01T01:15:00Z","2026-06-01T01:15:01.294244Z","2026-06-01T01:15:01.294272Z",true,"agent",10]