SGLang 用 Waterfill + LPLB 在 Dispatch 时段「抢回」MoE 推理的最后一公里

DeepSeek-V3、R1 到即将上线的 V4，MoE 推理已成生产部署事实标准。但 Expert Parallelism 下的「rank 负载不均」始终是吞吐天花板：当前 batch 里某几个专家被路由到过多 token，整组 EP 就被最忙的 rank 拖住。 6 月 26 日 LMSYS 联合 NVIDIA 在 SGLang 上线两个 dispatch-time 均衡器，把这最后一公里损失捞回。 Waterfill 把「共享专家」从「每 rank 各算一份」改为按 routed 负载实时分派到较闲 rank。两节点 Hopper 跑 V3/R1 风格负载，MMLU/GPQA/GSM8K 吞吐 +1.48%~+4.66%；V4 最佳档从 49,253 tok/s 推到 51,677 tok/s（+4.92%）。 LPLB 瞄准 EPLB 的「冗余专家副本」，每个 layer、batch 解一个小型 LP，把副本分配从离线均匀分摊升级成 min–max 优化，吞吐再涨 +0.84%~+7.34%。两方法不改权重、不改 router，只在 dispatch 这一瞬把已分配的工作做得更均匀。对自部署 V4 的团队，「不动模型、白拿 5% 吞吐」在 API 峰谷定价即将落地时，是能直接折算到运营成本的工程红利。