可灵团队提出 AnchorWorld:用 3D 人体运动重塑「第一人称世界模拟」

当 Sora、Veo 等视频生成模型还在卷「怎么把单条视频拍得更像电影」时,视频生成领域的下一个战场已经悄悄转移——可交互的世界模型(World Model)。快手可灵(Kling)团队联合清华在 arXiv 上放出的 AnchorWorld,正是一份来自工业界头部玩家、对「可定制、可交互、可自我演化」世界模拟框架的硬核回应。 论文的核心切入点很明确:用 3D 人体运动作为交互的第一模态。第一人称视角天然存在视野遮挡和身体截断的问题,作者引入一个「与智能体第一人称感知解耦」的辅助监督信号,让模型能从外部视角观察智能体全身相对环境的位置,从而把「人-世界交互」的空间锚定做得更扎实。 更值得注意的是「Anchor View + 文本驱动」的自演化机制:在统一世界坐标系下定义若干锚定视角,配合文本描述来约束局部场景的动态演化。简单,但有效——实验显示其在时空几何一致性上严格遵循预设动态,且在多项 SOTA 基准上显著领先。 如果说之前的世界模型(Project Genie、SANA-WM 等)解决的是「能不能生成一个能走进去的视频」,AnchorWorld 回答的是「走进去之后能不能像玩游戏一样改写这个世界」。这或许才是通向具身智能与 AGI 的真正桥梁。