arXiv 6 月 16 日上线的 Kairos 技术报告,是 HF Daily Papers 当周的「常驻热榜」——发布数天仍有 700+ 票,24 位作者横跨学术与产业团队。它的野心不止是又一个视频世界模型,而是把世界模型从「被动视觉生成器」拉成 Physical AI 的运营基础设施。 **架构:Hybrid Linear Temporal Attention** Kairos 把时序注意力拆成三种粒度的叠加:滑动窗口吃局部动力学,膨胀滑动窗口吃中等范围依赖,门控线性注意力维护持久全局记忆。三者通过时序因子化串联,作者给出形式化推导,证明这种分解对误差累积有严格上界——长程一致性第一次有了数学保障。 **训练:Cross-Embodiment Data Curriculum** 原生预训练范式把开放世界视频、人类行为数据、机器人交互,组织成由易到难的「发展课程」,类似婴儿先看、再模仿、最后操作。这让模型在不同 embodiment 之间共享底层物理直觉。 **部署:Deployment-Aware System Co-Design** 第三块强调的不是「训练多强」,而是「在服务器和消费级硬件上跑得动」。Kairos 把 rollout 延迟做成协同设计目标,让观察-动作-反馈闭环可以在边缘侧成立。 实验上,Kairos 在具身世界模型、长程、动作策略三组基准同时拿到顶级性能,同时给出对得起的效率-能力折中。过去的世界模型论文大多停留在「生成像不像」,Kairos 把「状态能不能长时间不漂移」「能不能直接喂给机器人决策」摆到了与画质同等的位置。 更值得行业注意的是,作者团队里既有陶大程、王晓刚等学术明星,也有产业团队署名——预示着世界模型正在走出「论文 demo 阶段」,进入「基础设施化」的下一程。