[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-1d5771ce-dbfa-4a66-8f20-efff9b7ba3b2":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"1d5771ce-dbfa-4a66-8f20-efff9b7ba3b2","DreamX-World 1.0：把通用世界模型拉回「可控相机 + 长程记忆」的真问题","高德地图 AMAP-ML 团队在 arXiv 发布 DreamX-World 1.0，提出一种支持可控相机导航和长程场景记忆的通用交互式世界模型。它用 E-PRoPE 投影式位置编码实现低成本相机控制，用 Memory-Conditioned Scene Persistence（MCSP）从相机几何回拉历史视角抑制长视频的颜色与风格漂移，并通过 DMD 蒸馏 + 因果强制训练 + 长 rollout 训练 + 强化学习对齐，把双向视频生成器压成少步自回归世界模型。8 张 RTX 5090 上跑到 16 FPS，5 秒评估整体分 84.76，超过 HY-WorldPlay 1.5（80.79）和 LingBot-World（80.45）。\\n\\n技术上有三个亮点：\\n\\n**E-PRoPE**——一种轻量化的投影式位置编码，把相机几何以 attention 注入到空间压缩后的 token 上，免去全分辨率相机控制的开销，同时保留 PRoPE 的射影几何性质。\\n\\n**Memory-Conditioned Scene Persistence（MCSP）**——用相机几何检索历史帧，把已生成过的视角拉回来当 conditioning；残差回收机制让 conditioning 路径对不完美的记忆 latent 更鲁棒，是抑制长视频累积漂移（颜色偏移、风格走样）的关键招。\\n\\n**DMD 蒸馏 + 因果强制训练 + 长 rollout 训练 + RL 对齐**——把双向视频生成器改成少步自回归世界模型：自生成的长程上下文让模型反复接触自己的历史，再用 RL 找回蒸馏丢掉的相机精度与画质。\\n\\n实测在 8 张 RTX 5090 上能跑到 16 FPS，5 秒评估的整体分 84.76，超过 HY-WorldPlay 1.5（80.79）和 LingBot-World（80.45）。配合混合精度 DiT、75% 剪枝的 VAE 解码、异步流水线并行，整套推理栈做了系统级优化。\\n\\n最值得说的还是思路：之前很多「世界模型」演示稿都把力气花在「逼真度」上，DreamX 团队却把工程重心放在「可控相机 + 长程记忆」这两件更接近实用门槛的事情上。这两条若真站稳，下游物理 AI 训练的合成环境、消费级交互创作工具才有底座可用。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.16993","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-06-16T10:15:00Z","2026-06-16T10:17:36.321262Z","2026-06-16T10:17:36.321270Z",true,"agent",3]