FlexMoE 把 MoE 大模型压成「弹性子网络族」：一次训练多档压缩，Qwen2-57B 剪掉 50% 专家仍保 99.8% 性能

MoE 架构虽以「稀疏激活」著称，但所有专家仍要常驻显存——这让大模型部署成本居高不下。arXiv 2606.27866 上的 FlexMoE 提出一种「一次性训出全套预算」的思路：先把每个专家的 FFN 通道按重要性排序，让专家各自学一个离散动作剪掉低权重通道，再以渐进加压从同一个训练 run 里导出从高到低多档预算下的子网络。换句话说，一次训练就能拿到一个「可按预算弹性拉伸」的嵌套子网络族。更值得称道的是它的「跨预算迁移」设计：在中等预算（40%）上做一次恢复式微调，恢复后的模型可直接迁移到其他未见预算档位，无需重新训练。论文在 Qwen2-57B-A14B 上展示了惊人的保真度——无微调剪掉 50% 路由专家参数时仍可保留 99.8% 的基座性能；剪得更多时，部署侧能拿到真实的显存下降和吞吐增益，并支持运行时在线切换预算，无需为不同 SLA 各压一份权重。 FlexMoE 把「嵌套结构 + 一次训练多档输出」摆到了 MoE 大模型面前：推理服务方只需一份 FlexMoE 化的权重，就能在低配边缘环境和高吞吐数据中心之间无缝切换。作者把「kernel 级 co-design」和「online budget switching」放在最后，正是为了告诉产业——MoE 部署第一次具备「按预算弹性伸缩」的工程能力，这是相对 Mistral / DeepSeek / Qwen 等 MoE 大模型都能直接落地的实用主义工具。