视频世界模型正成为具身智能训练的新基础设施——单张起始图像就能生成可自由导航的连贯视频。但一个老毛病长期困扰这条路:虚拟相机绕一圈再扫回原位,墙会偏、家具会扭、纹理会换。这不是美化问题——机器人学会的"空间关系"会直接把错误的物理直觉带进现实部署。 arXiv 2606.09828 提出的 Mirage 给出一个干净解:把 3D 场景信息直接存进扩散模型的潜空间,不再走"点云—渲染—VAE 重编码"那条往返链路。具体做法:每帧被 VAE 编码成潜空间张量,单目深度估计给出逐像素深度,深度引导反投影把每个潜空间 token 提升到三维坐标系,形成持久化潜空间缓存。合成新视角时,缓存直接 warp 到目标相机栅格,扩散主干直接消费,不绕像素空间、不二次编码。 效果非常直接:端到端视频生成提速 10.57 倍,显存占用降到原来的 1/55,并在 WorldScore 拿下 SOTA。之前的瓶颈是"把场景压回 RGB 像素再解回潜空间"——既贵又丢信息。Mirage 让潜空间的几何先验接管一致性,几何信息从未离开模型最熟悉的特征域。 对具身 AI 而言,这条路线让大规模仿真不再被显存墙挡在门外。配合 WeDLM 等扩散 LLM 的进展,扩散范式正从文本、图像一路吃下 3D 场景记忆——模型的"内部表示"将比"输出像素"更重要。