视频生成模型越来越强,但只要超过几十帧,几何漂移、物体「换脸」就成为通病——根源在于把整段视频摊平喂给 Transformer 时,序列长度指数级爆炸。MIT Sitzmann 实验室(Ishaan Preetam Chandratreya、David Charatan、Basile Van Hoorick 等)6 月 8 日在 arXiv 放出的 MilliVid,把这个问题拆成了两件事:第一,多尺度自编码器。把每一帧压成一组层级 token——从常规潜变量一直压缩到「每帧仅几个 token」。最粗的层级只保留场景布局、语义与对象身份;细层级再补高频外观与纹理。这样不同重要性的信息自然分层。第二,粗到细的 rollout 视频扩散。训练时先生成粗 token,再用它指导细 token 的生成;推理时模型只在「值得分配算力」的维度上做长程一致性约束。结果是在长 Minecraft 视频评测里,几何与物体持续性显著优于既有基线。比起把上下文硬塞进注意力,或用「滚动窗口」剪断长程依赖,MilliVid 的思路更接近人类视觉——先记忆骨架,再补充细节。对工业界的启发是:长视频生成不必非要 1M 上下文,用「粗到细」分配算力比堆长度更有效。