Directing the World: 中国电信 TeleAI 把自回归视频世界模型推到"组合控制"

中国电信人工智能研究院 TeleAI 联合学界发布的「Directing the World」(arXiv:2606.27964),把自回归视频生成推到一个更工程化的位置——不再做单控制轴的图生视频,而是要同时接住**人物动作 + 相机轨迹**两条异构信号,在长程 rollout 里仍保持稳定一致。 ## 核心思路:解耦控制,保留统一先验 人类动作与相机轨迹如果直接注入同一段自回归视频先验,两类信号会互相干扰,长程生成尤其容易坍塌。作者把控制学习与视觉先验"解耦": - **Fast-Slow Memory 训练策略**:用快慢两套记忆节奏稳定长程 rollout,缓解误差累积。 - **t-guided Dynamic Projection + 精炼 Motion-CFG**:不损伤画质前提下把人物动作对齐到时间轴,支持多人控制。 - **两阶段相机控制**:先学稳健的人体运动先验,再单独引入相机轨迹模块,与人物动态组合做"看得远又走得稳"的世界探索。 ## 为什么值得专门写 过去半年,视频世界模型的"控制力"竞赛几乎被扩散路线主导,而 TeleAI 坚持**自回归 + 解耦控制**——可以更自然地塞进 Agent 的"动作—观察—决策"循环,实时性与长上下文稳定性,正是 AR 路线的传统优势。 论文把"组合控制"作为一等公民设计,而不是事后加控制器的工程拼接。这条路线跑通后,下游的具身训练数据合成、机器人 rollout 仿真、可交互视频世界,都能拿到一份时序一致、动作可控、相机可规划的生成源。 所以这不是"再快一点的视频模型",而是把**控制信号的组合性**正式推到自回归视频世界模型的中心位置——这是中国电信系研究院押注"长程可交互视频"这块下一代基础设施的明确信号。 (基于 arXiv:2606.27964)