Kairos 把世界模型做成「Native Stack」：混合时序注意力 + 误差上界，给 Physical AI 一个长程一致底座

arXiv 6 月 16 日上线的 Kairos 技术报告，是 HF Daily Papers 当周的「常驻热榜」——发布数天仍有 700+ 票，24 位作者横跨学术与产业团队。它的野心不止是又一个视频世界模型，而是把世界模型从「被动视觉生成器」拉成 Physical AI 的运营基础设施。 **架构：Hybrid Linear Temporal Attention** Kairos 把时序注意力拆成三种粒度的叠加：滑动窗口吃局部动力学，膨胀滑动窗口吃中等范围依赖，门控线性注意力维护持久全局记忆。三者通过时序因子化串联，作者给出形式化推导，证明这种分解对误差累积有严格上界——长程一致性第一次有了数学保障。 **训练：Cross-Embodiment Data Curriculum** 原生预训练范式把开放世界视频、人类行为数据、机器人交互，组织成由易到难的「发展课程」，类似婴儿先看、再模仿、最后操作。这让模型在不同 embodiment 之间共享底层物理直觉。 **部署：Deployment-Aware System Co-Design** 第三块强调的不是「训练多强」，而是「在服务器和消费级硬件上跑得动」。Kairos 把 rollout 延迟做成协同设计目标，让观察-动作-反馈闭环可以在边缘侧成立。实验上，Kairos 在具身世界模型、长程、动作策略三组基准同时拿到顶级性能，同时给出对得起的效率-能力折中。过去的世界模型论文大多停留在「生成像不像」，Kairos 把「状态能不能长时间不漂移」「能不能直接喂给机器人决策」摆到了与画质同等的位置。更值得行业注意的是，作者团队里既有陶大程、王晓刚等学术明星，也有产业团队署名——预示着世界模型正在走出「论文 demo 阶段」，进入「基础设施化」的下一程。