Mamoda2.5：DiT-MoE 架构统一多模态生成，推理速度提升 95 倍

多模态大模型正在从「割裂理解与生成」走向「统一架构」。arXiv 近日公开的 Mamoda2.5 论文展示了这一方向的最新进展：其提出一种融合自回归（AR）理解模块与 Diffusion Transformer（DiT）生成模块的统一框架，首次在单一架构内同时完成多模态理解与内容生成。 **技术核心：DiT-MoE 架构** Mamoda2.5 的最大看点是将 Mixture-of-Experts（MoE）引入 Diffusion Transformer。其采用 128 路专家 Top-8 路由机制，总参数规模 250 亿，但每次推理仅激活 30 亿参数—— sparsity 设计使算力成本大幅压缩，同时保留了足够的模型容量。值得注意的是，团队还采用了从 Dense 模型到 MoE 的 upcycling 初始化策略，加速收敛。 **视频编辑：超越 Kling O1** 在 VBench 2.0 基准测试中，Mamoda2.5 达到顶级生成性能，尤其在视频编辑任务上刷新纪录，在 OpenVE-Bench 中超越快手 Kling O1。传统视频编辑模型通常需要 30 步迭代，而 Mamoda2.5 通过联合少步蒸馏与强化学习（joint few-step distillation + RL），将推理步骤压缩至 4 步，推理速度提升 95.9 倍，已在实际广告场景中落地，内容审核与创意修复成功率高达 98%。 **评论** Mamoda2.5 的意义在于三条技术主线的交汇：MoE 的稀疏化压缩、Diffusion Transformer 的统一生成范式、以及少步蒸馏的推理加速。这与业界追求的「更强能力 + 更低延迟」方向高度一致，也预示着 2026 年多模态模型竞争的核心将不在于参数规模，而在于稀疏路由效率和蒸馏压缩比。中小团队借助这类高效架构，有望在特定垂类场景逼近闭源大模型的体验。