NVIDIA 近日发布了 SANA-WM,一个 26 亿参数的开源世界模型,能够在单张 GPU 上生成一分钟长度、720p 分辨率的视频,并支持公制尺度 6-DoF 相机控制。该模型已在 arXiv 公开(arXiv:2605.15178),代码和权重均可在 NVlabs/Sana GitHub 仓库获取。 架构核心是 Hybrid Linear Attention:用帧级 Gated DeltaNet(GDN)替代大部分 Attention 块,引入衰减门 γ 解决长视频状态漂移问题,让 recurrent state 保持在常量维度。 两阶段 pipeline:第一阶段生成低分辨率粗略输出,第二阶段通过长视频精修器提升质量。经 4 步蒸馏的版本在单张 RTX 5090(NVFP4 量化)上完成 60 秒 720p 视频去噪仅需 34 秒,吞吐量是此前开源方案的 36 倍。训练仅需约 21.3 万段公开视频,在 64 张 H100 上训练 15 天即可完成。 SANA-WM 的意义在于让世界模型的训练和推理都能在有限算力下完成。当分钟级、720p、带相机控制的视频生成可以在消费级硬件上运行,世界模型作为机器人仿真和具身智能训练数据来源的实用价值才真正打开。从「能跑」到「用得起」,这是 2026 年世界模型领域最务实的一步。