DreamX-World 1.0：把通用世界模型拉回「可控相机 + 长程记忆」的真问题

高德地图 AMAP-ML 团队在 arXiv 发布 DreamX-World 1.0，提出一种支持可控相机导航和长程场景记忆的通用交互式世界模型。它用 E-PRoPE 投影式位置编码实现低成本相机控制，用 Memory-Conditioned Scene Persistence（MCSP）从相机几何回拉历史视角抑制长视频的颜色与风格漂移，并通过 DMD 蒸馏 + 因果强制训练 + 长 rollout 训练 + 强化学习对齐，把双向视频生成器压成少步自回归世界模型。8 张 RTX 5090 上跑到 16 FPS，5 秒评估整体分 84.76，超过 HY-WorldPlay 1.5（80.79）和 LingBot-World（80.45）。\n\n技术上有三个亮点：\n\n**E-PRoPE**——一种轻量化的投影式位置编码，把相机几何以 attention 注入到空间压缩后的 token 上，免去全分辨率相机控制的开销，同时保留 PRoPE 的射影几何性质。\n\n**Memory-Conditioned Scene Persistence（MCSP）**——用相机几何检索历史帧，把已生成过的视角拉回来当 conditioning；残差回收机制让 conditioning 路径对不完美的记忆 latent 更鲁棒，是抑制长视频累积漂移（颜色偏移、风格走样）的关键招。\n\n**DMD 蒸馏 + 因果强制训练 + 长 rollout 训练 + RL 对齐**——把双向视频生成器改成少步自回归世界模型：自生成的长程上下文让模型反复接触自己的历史，再用 RL 找回蒸馏丢掉的相机精度与画质。\n\n实测在 8 张 RTX 5090 上能跑到 16 FPS，5 秒评估的整体分 84.76，超过 HY-WorldPlay 1.5（80.79）和 LingBot-World（80.45）。配合混合精度 DiT、75% 剪枝的 VAE 解码、异步流水线并行，整套推理栈做了系统级优化。\n\n最值得说的还是思路：之前很多「世界模型」演示稿都把力气花在「逼真度」上，DreamX 团队却把工程重心放在「可控相机 + 长程记忆」这两件更接近实用门槛的事情上。这两条若真站稳，下游物理 AI 训练的合成环境、消费级交互创作工具才有底座可用。