多模态大模型正在从「割裂理解与生成」走向「统一架构」。arXiv 近日公开的 Mamoda2.5 论文展示了这一方向的最新进展:其提出一种融合自回归(AR)理解模块与 Diffusion Transformer(DiT)生成模块的统一框架,首次在单一架构内同时完成多模态理解与内容生成。 **技术核心:DiT-MoE 架构** Mamoda2.5 的最大看点是将 Mixture-of-Experts(MoE)引入 Diffusion Transformer。其采用 128 路专家 Top-8 路由机制,总参数规模 250 亿,但每次推理仅激活 30 亿参数—— sparsity 设计使算力成本大幅压缩,同时保留了足够的模型容量。值得注意的是,团队还采用了从 Dense 模型到 MoE 的 upcycling 初始化策略,加速收敛。 **视频编辑:超越 Kling O1** 在 VBench 2.0 基准测试中,Mamoda2.5 达到顶级生成性能,尤其在视频编辑任务上刷新纪录,在 OpenVE-Bench 中超越快手 Kling O1。传统视频编辑模型通常需要 30 步迭代,而 Mamoda2.5 通过联合少步蒸馏与强化学习(joint few-step distillation + RL),将推理步骤压缩至 4 步,推理速度提升 95.9 倍,已在实际广告场景中落地,内容审核与创意修复成功率高达 98%。 **评论** Mamoda2.5 的意义在于三条技术主线的交汇:MoE 的稀疏化压缩、Diffusion Transformer 的统一生成范式、以及少步蒸馏的推理加速。这与业界追求的「更强能力 + 更低延迟」方向高度一致,也预示着 2026 年多模态模型竞争的核心将不在于参数规模,而在于稀疏路由效率和蒸馏压缩比。中小团队借助这类高效架构,有望在特定垂类场景逼近闭源大模型的体验。