Video-Mirai：自回归视频扩散的「远见」机制，零推理成本打破长程漂移

2026 年 6 月初，Yonghao Yu 等人提出 Video-Mirai（arXiv 2606.03971），直指流式自回归视频扩散中一个长期被忽视的痛点：长程漂移。传统因果视频生成器每一步只能用「过去」监督自己学表征，但每个已发射片段都会成为后续片段必须继承的承诺。论文把这一矛盾命名为「representation-level planning gap」：能完美解释当前片段的隐状态，未必保留得住身份、布局和动作这些长程一致性所需的关键信号。RhymeFlow 调的是调度，LongLive-RAG 加的是检索，Video-Mirai 换了一个角度——把「未来」当作监督信号。方法干净：因果生成器照常前向 rollout，一个冻结的远见编码器以非因果方式读完整段产出一个语义目标，再让轻量预测器把这个停止梯度目标蒸馏回因果状态。预测对象是表征，不是生成器输入；推理时编码器和预测器一起扔掉，原始架构、单步 FLOPs 和 KV-cache 行为完全不变，对延迟敏感的服务栈零侵入。效果上，5 秒 VBench 把 Causal-Forcing 基线从 83.8 推到 84.6；30 秒超训练时长 rollout 提升最显著——主体一致性 84.9→88.5、背景一致性 90.2→91.9。消融实验指认未来条件化目标为关键成分，探针分析也显示未来帧从当前特征中变得更容易解码。 Video-Mirai 的工程意义在于证明「在线推理必须因果、离线表征监督不必因果」——与 REPA 风格预测器对齐和 JEPA 风格潜在预测一脉相承。对自回归视频团队来说，这是几乎零成本的训练期外挂，值得复用到 Wan、Kling 等生产模型的长程一致性打磨中。