SUNTA 用"惊奇度"切分视频预测:东京大学让模型在 250 步后仍不崩溃

长时序视频预测是世界模型绕不开的硬骨头。东京大学 Matsuo 团队在 arXiv 公开的 SUNTA,从最容易被忽略的角度切入:分层状态空间模型(HSSM)的分段边界到底该由谁决定。过去的 HSSM 用固定长度切片,或用帧间相似度找切换点,但这些启发式规则常常和数据本身的时序结构错位。SUNTA 提出用"惊奇度"(surprise-based chunking)驱动分段——预测误差突然升高的时刻,就是该调用更长程上下文的时刻。这一改看似朴素,实则解决了两个老问题:端到端训练时容易出现的"层次塌缩",以及开环预测时惊奇信号消失的尴尬。具体做法双管齐下:用解耦训练策略保留惊奇信号;在想象展开的预测里,用模型内部的"不一致性"作为顶层惊奇指标决定何时换段。效果立竿见影——2D/3D 视频预测任务上,SUNTA 是唯一能在 250 步之后仍保持准确预测的方法,所有 baseline 在前 10 步就开始退化。这条思路对今天拼长视频一致性的世界模型(Sora、Veo、可灵等)是直接的"技术借鉴清单":分层抽象不该再交给人工设计的窗口,要让模型自己学着"惊讶"。当 AI 真正学会在被意外打断时换档,长视频才有可能从 5 秒连贯走向 5 分钟连贯。