2026 年 6 月初,Yonghao Yu 等人提出 Video-Mirai(arXiv 2606.03971),直指流式自回归视频扩散中一个长期被忽视的痛点:长程漂移。 传统因果视频生成器每一步只能用「过去」监督自己学表征,但每个已发射片段都会成为后续片段必须继承的承诺。论文把这一矛盾命名为「representation-level planning gap」:能完美解释当前片段的隐状态,未必保留得住身份、布局和动作这些长程一致性所需的关键信号。RhymeFlow 调的是调度,LongLive-RAG 加的是检索,Video-Mirai 换了一个角度——把「未来」当作监督信号。 方法干净:因果生成器照常前向 rollout,一个冻结的远见编码器以非因果方式读完整段产出一个语义目标,再让轻量预测器把这个停止梯度目标蒸馏回因果状态。预测对象是表征,不是生成器输入;推理时编码器和预测器一起扔掉,原始架构、单步 FLOPs 和 KV-cache 行为完全不变,对延迟敏感的服务栈零侵入。 效果上,5 秒 VBench 把 Causal-Forcing 基线从 83.8 推到 84.6;30 秒超训练时长 rollout 提升最显著——主体一致性 84.9→88.5、背景一致性 90.2→91.9。消融实验指认未来条件化目标为关键成分,探针分析也显示未来帧从当前特征中变得更容易解码。 Video-Mirai 的工程意义在于证明「在线推理必须因果、离线表征监督不必因果」——与 REPA 风格预测器对齐和 JEPA 风格潜在预测一脉相承。对自回归视频团队来说,这是几乎零成本的训练期外挂,值得复用到 Wan、Kling 等生产模型的长程一致性打磨中。