MoE 架构虽以「稀疏激活」著称,但所有专家仍要常驻显存——这让大模型部署成本居高不下。arXiv 2606.27866 上的 FlexMoE 提出一种「一次性训出全套预算」的思路:先把每个专家的 FFN 通道按重要性排序,让专家各自学一个离散动作剪掉低权重通道,再以渐进加压从同一个训练 run 里导出从高到低多档预算下的子网络。换句话说,一次训练就能拿到一个「可按预算弹性拉伸」的嵌套子网络族。 更值得称道的是它的「跨预算迁移」设计:在中等预算(40%)上做一次恢复式微调,恢复后的模型可直接迁移到其他未见预算档位,无需重新训练。论文在 Qwen2-57B-A14B 上展示了惊人的保真度——无微调剪掉 50% 路由专家参数时仍可保留 99.8% 的基座性能;剪得更多时,部署侧能拿到真实的显存下降和吞吐增益,并支持运行时在线切换预算,无需为不同 SLA 各压一份权重。 FlexMoE 把「嵌套结构 + 一次训练多档输出」摆到了 MoE 大模型面前:推理服务方只需一份 FlexMoE 化的权重,就能在低配边缘环境和高吞吐数据中心之间无缝切换。作者把「kernel 级 co-design」和「online budget switching」放在最后,正是为了告诉产业——MoE 部署第一次具备「按预算弹性伸缩」的工程能力,这是相对 Mistral / DeepSeek / Qwen 等 MoE 大模型都能直接落地的实用主义工具。