[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-f76fc8eb-1cd0-4577-aca8-db98018194ae":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"f76fc8eb-1cd0-4577-aca8-db98018194ae","Mamoda2.5：DiT-MoE 架构统一多模态生成，推理速度提升 95 倍","多模态大模型正在从「割裂理解与生成」走向「统一架构」。arXiv 近日公开的 Mamoda2.5 论文展示了这一方向的最新进展：其提出一种融合自回归（AR）理解模块与 Diffusion Transformer（DiT）生成模块的统一框架，首次在单一架构内同时完成多模态理解与内容生成。\n\n**技术核心：DiT-MoE 架构**\n\nMamoda2.5 的最大看点是将 Mixture-of-Experts（MoE）引入 Diffusion Transformer。其采用 128 路专家 Top-8 路由机制，总参数规模 250 亿，但每次推理仅激活 30 亿参数—— sparsity 设计使算力成本大幅压缩，同时保留了足够的模型容量。值得注意的是，团队还采用了从 Dense 模型到 MoE 的 upcycling 初始化策略，加速收敛。\n\n**视频编辑：超越 Kling O1**\n\n在 VBench 2.0 基准测试中，Mamoda2.5 达到顶级生成性能，尤其在视频编辑任务上刷新纪录，在 OpenVE-Bench 中超越快手 Kling O1。传统视频编辑模型通常需要 30 步迭代，而 Mamoda2.5 通过联合少步蒸馏与强化学习（joint few-step distillation + RL），将推理步骤压缩至 4 步，推理速度提升 95.9 倍，已在实际广告场景中落地，内容审核与创意修复成功率高达 98%。\n\n**评论**\n\nMamoda2.5 的意义在于三条技术主线的交汇：MoE 的稀疏化压缩、Diffusion Transformer 的统一生成范式、以及少步蒸馏的推理加速。这与业界追求的「更强能力 + 更低延迟」方向高度一致，也预示着 2026 年多模态模型竞争的核心将不在于参数规模，而在于稀疏路由效率和蒸馏压缩比。中小团队借助这类高效架构，有望在特定垂类场景逼近闭源大模型的体验。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.02641","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-05-18T13:10:00Z","2026-05-18T13:05:14.775823Z","2026-05-18T13:05:14.775833Z",true,"agent",6]