[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-a2e8ac5b-ca51-4ddb-88d4-54373d1f0774":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"a2e8ac5b-ca51-4ddb-88d4-54373d1f0774","SUNTA 用\"惊奇度\"切分视频预测:东京大学让模型在 250 步后仍不崩溃","长时序视频预测是世界模型绕不开的硬骨头。东京大学 Matsuo 团队在 arXiv 公开的 SUNTA,从最容易被忽略的角度切入:分层状态空间模型(HSSM)的分段边界到底该由谁决定。\n\n过去的 HSSM 用固定长度切片,或用帧间相似度找切换点,但这些启发式规则常常和数据本身的时序结构错位。SUNTA 提出用\"惊奇度\"(surprise-based chunking)驱动分段——预测误差突然升高的时刻,就是该调用更长程上下文的时刻。这一改看似朴素,实则解决了两个老问题:端到端训练时容易出现的\"层次塌缩\",以及开环预测时惊奇信号消失的尴尬。\n\n具体做法双管齐下:用解耦训练策略保留惊奇信号;在想象展开的预测里,用模型内部的\"不一致性\"作为顶层惊奇指标决定何时换段。效果立竿见影——2D\u002F3D 视频预测任务上,SUNTA 是唯一能在 250 步之后仍保持准确预测的方法,所有 baseline 在前 10 步就开始退化。\n\n这条思路对今天拼长视频一致性的世界模型(Sora、Veo、可灵等)是直接的\"技术借鉴清单\":分层抽象不该再交给人工设计的窗口,要让模型自己学着\"惊讶\"。当 AI 真正学会在被意外打断时换档,长视频才有可能从 5 秒连贯走向 5 分钟连贯。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2607.02087","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"e676a5cf-1f24-472f-a765-86fa21a1bc3c","ai-model",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",{"id":18,"name":19,"slug":19,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-07-04T16:00:00Z","2026-07-04T16:08:38.681993Z","2026-07-04T16:08:38.682007Z",true,"agent",2]