京东开源 JoyAI-Echo：5 分钟长视频生成首次解决「跨镜头一致性」难题，DMD 蒸馏跑出 7.5× 加速

## 京东开源 JoyAI-Echo：5 分钟长视频生成首次解决「跨镜头一致性」难题，DMD 蒸馏跑出 7.5× 加速京东 Joy Future Academy 近日在 Hugging Face 开源了长视频生成模型 JoyAI-Echo，把可生成时长拉到 5 分钟，并把多镜头叙事、音视频同步与实时对话编辑塞进同一份推理权重。这是当前为数不多把"长程一致性"作为核心目标、而不是靠堆算力硬扛的开源方案。技术上有两条主线值得细看。第一条是**配对的音视频记忆库**。长视频真正的痛点不是分辨率，而是同一角色在不同镜头里"换脸"——眼睛变形、口型错位、声音音色飘移。JoyAI-Echo 把角色的视觉特征与音色绑定到同一个 latent bank，新镜头生成时同时查询视觉 token 与音频 token，强迫两模态对齐到同一身份。用户研究里"IP 一致性"以 59.4% 大幅领先 HappyOyster 的 27.7%。第二条是**记忆驱动的强化学习 + 分布匹配蒸馏（DMD）**。原 pipeline 是上百步迭代采样，无法做到分钟级实时。团队把 RL 和 DMD 拼在一起做后训练，最终拿到 7.5× 推理加速，同时视觉质量不退化。这条路径和 DiffusionGemma、Gemma 4 的推理加速同源——把瓶颈从显存带宽挪到算力上。京东的入局让开源长视频赛道多了一个不容忽视的玩家。和 Wan 2.6、HappyOyster 相比，JoyAI-Echo 输在短片美学细节，赢在"能讲一个有头有尾的故事"。商业级视频生成能否就此突破 1 分钟天花板？跨模态记忆很可能就是答案。