LoomVideo 开源 5B 统一视频生成与编辑模型：北大用「零开销」编辑机制砍掉 5.4× 推理成本

北大 MSALab 团队开源了 LoomVideo，一个 5B 参数的「统一视频基础模型」——单模型同时支持文生视频、指令编辑、参考图编辑和多图生视频四类任务。论文与权重（arXiv 2606.06042 / Hugging Face）一并发布，把过去动辄 13B+ 的视频编辑模型体量直接砍掉六成。技术核心是 MLLM + DiT + VAE 三件套：用 Qwen3-VL-8B 替换传统 T5 文本编码器，并提出三项针对性设计。Deepstack Injection 从 MLLM 每一层抽出 hidden state 注入 DiT 对应层，让语义指导渗透整个生成过程；Scale-and-Add Conditioning 把干净源视频 latent 按 timestep 缩放后直接加到噪声目标上，绕开 token 拼接，让编辑路径「零额外开销」；Negative Temporal RoPE 给参考图像分配负向时间索引，干净区分参考帧与目标帧。最亮眼的是 5.41× 推理加速——视频编辑的 self-attention 成本过去会因拼接源视频而翻四倍，LoomVideo 的方案数学上等效却显著省算。配合 FP8 / INT4 量化与 vLLM 栈，5B 模型的部署门槛被压到消费级显卡可触及。论文还指出在电商与时尚生成场景的 SOTA 表现。需要提醒的是，统一生成与编辑仍是早期形态：四类任务间的指令工程、数据配比、长程一致性都还依赖研究者主动调优，落到工业流水线仍需二次微调。但 LoomVideo 至少证明了一件事——视频基础模型不必靠把参数堆到 20B+ 拿质量，架构上的「零开销」思路完全可以在小模型上复现前沿效果。这是 2026 年视频生成路线从「大力出奇迹」转向「精巧出奇迹」的一个清晰切片。