AI2 EMO:把 MoE 训练成「可拆装」模块,1B 激活也能按域调度

现在大多数 MoE 模型都号称「激活少量参数」,但实际部署时仍要把整张卡加载进去。原因并不神秘:标准 MoE 的专家在训练中往往只学会区分「介词」「专有名词」这种浅层词法特征,而不是「医学」「代码」这种语义域。一旦想只保留部分专家,模型性能就会断崖式下跌。\n\nAI2 这篇工作换了一个更聪明的角度:把「涌现模块化」做成预训练的一阶目标。方法看似简单——同一文档的所有 token 共享一个由路由器挑出的专家子集——但配合「全局负载均衡」与训练时随机采样子集大小这两个工程细节后,效果立竿见影:1B 激活的 14B MoE 在保留 25% 专家时损失约 1%,保留 12.5% 专家时也只掉 3%;同样规模的标准 MoE 在 12.5% 子集下已跌到接近随机水平。\n\n更值得注意的是 EMO 真正涌现出的专家语义:聚类后是「健康/医疗」「美国政治选举」「影视音乐」,而不再是「冠词」「所有格」——这意味着我们终于可以让一个稀疏模型按域而不是按 token 去路由,把「加载整模型」换成「按域加载 1/8 专家」成为现实可能。配合 Easy-EP 等现成专家剪枝方法,组合空间相当大。这条路线如果被 DeepSeek、Mixtral 这样的工业级 MoE 采纳,推理侧的显存门槛会再下一个台阶。