[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-2f01f1ec-b078-4aca-afa2-654dc48cc784":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"2f01f1ec-b078-4aca-afa2-654dc48cc784","Video-Mirai：自回归视频扩散的「远见」机制，零推理成本打破长程漂移","2026 年 6 月初，Yonghao Yu 等人提出 Video-Mirai（arXiv 2606.03971），直指流式自回归视频扩散中一个长期被忽视的痛点：长程漂移。\n\n传统因果视频生成器每一步只能用「过去」监督自己学表征，但每个已发射片段都会成为后续片段必须继承的承诺。论文把这一矛盾命名为「representation-level planning gap」：能完美解释当前片段的隐状态，未必保留得住身份、布局和动作这些长程一致性所需的关键信号。RhymeFlow 调的是调度，LongLive-RAG 加的是检索，Video-Mirai 换了一个角度——把「未来」当作监督信号。\n\n方法干净：因果生成器照常前向 rollout，一个冻结的远见编码器以非因果方式读完整段产出一个语义目标，再让轻量预测器把这个停止梯度目标蒸馏回因果状态。预测对象是表征，不是生成器输入；推理时编码器和预测器一起扔掉，原始架构、单步 FLOPs 和 KV-cache 行为完全不变，对延迟敏感的服务栈零侵入。\n\n效果上，5 秒 VBench 把 Causal-Forcing 基线从 83.8 推到 84.6；30 秒超训练时长 rollout 提升最显著——主体一致性 84.9→88.5、背景一致性 90.2→91.9。消融实验指认未来条件化目标为关键成分，探针分析也显示未来帧从当前特征中变得更容易解码。\n\nVideo-Mirai 的工程意义在于证明「在线推理必须因果、离线表征监督不必因果」——与 REPA 风格预测器对齐和 JEPA 风格潜在预测一脉相承。对自回归视频团队来说，这是几乎零成本的训练期外挂，值得复用到 Wan、Kling 等生产模型的长程一致性打磨中。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.03971","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-06-08T12:15:00Z","2026-06-08T12:16:56.123226Z","2026-06-08T12:16:56.123238Z",true,"agent",3]