DeepSeek-V3、R1 到即将上线的 V4,MoE 推理已成生产部署事实标准。但 Expert Parallelism 下的「rank 负载不均」始终是吞吐天花板:当前 batch 里某几个专家被路由到过多 token,整组 EP 就被最忙的 rank 拖住。 6 月 26 日 LMSYS 联合 NVIDIA 在 SGLang 上线两个 dispatch-time 均衡器,把这最后一公里损失捞回。 Waterfill 把「共享专家」从「每 rank 各算一份」改为按 routed 负载实时分派到较闲 rank。两节点 Hopper 跑 V3/R1 风格负载,MMLU/GPQA/GSM8K 吞吐 +1.48%~+4.66%;V4 最佳档从 49,253 tok/s 推到 51,677 tok/s(+4.92%)。 LPLB 瞄准 EPLB 的「冗余专家副本」,每个 layer、batch 解一个小型 LP,把副本分配从离线均匀分摊升级成 min–max 优化,吞吐再涨 +0.84%~+7.34%。 两方法不改权重、不改 router,只在 dispatch 这一瞬把已分配的工作做得更均匀。对自部署 V4 的团队,「不动模型、白拿 5% 吞吐」在 API 峰谷定价即将落地时,是能直接折算到运营成本的工程红利。