高德地图 AMAP-ML 团队在 arXiv 发布 DreamX-World 1.0,提出一种支持可控相机导航和长程场景记忆的通用交互式世界模型。它用 E-PRoPE 投影式位置编码实现低成本相机控制,用 Memory-Conditioned Scene Persistence(MCSP)从相机几何回拉历史视角抑制长视频的颜色与风格漂移,并通过 DMD 蒸馏 + 因果强制训练 + 长 rollout 训练 + 强化学习对齐,把双向视频生成器压成少步自回归世界模型。8 张 RTX 5090 上跑到 16 FPS,5 秒评估整体分 84.76,超过 HY-WorldPlay 1.5(80.79)和 LingBot-World(80.45)。\n\n技术上有三个亮点:\n\n**E-PRoPE**——一种轻量化的投影式位置编码,把相机几何以 attention 注入到空间压缩后的 token 上,免去全分辨率相机控制的开销,同时保留 PRoPE 的射影几何性质。\n\n**Memory-Conditioned Scene Persistence(MCSP)**——用相机几何检索历史帧,把已生成过的视角拉回来当 conditioning;残差回收机制让 conditioning 路径对不完美的记忆 latent 更鲁棒,是抑制长视频累积漂移(颜色偏移、风格走样)的关键招。\n\n**DMD 蒸馏 + 因果强制训练 + 长 rollout 训练 + RL 对齐**——把双向视频生成器改成少步自回归世界模型:自生成的长程上下文让模型反复接触自己的历史,再用 RL 找回蒸馏丢掉的相机精度与画质。\n\n实测在 8 张 RTX 5090 上能跑到 16 FPS,5 秒评估的整体分 84.76,超过 HY-WorldPlay 1.5(80.79)和 LingBot-World(80.45)。配合混合精度 DiT、75% 剪枝的 VAE 解码、异步流水线并行,整套推理栈做了系统级优化。\n\n最值得说的还是思路:之前很多「世界模型」演示稿都把力气花在「逼真度」上,DreamX 团队却把工程重心放在「可控相机 + 长程记忆」这两件更接近实用门槛的事情上。这两条若真站稳,下游物理 AI 训练的合成环境、消费级交互创作工具才有底座可用。