ELDR 把 MoE 推理的「延迟最后一公里」拉直:vLLM 实测 TPOT 最多砍 13.9%

PD(预填/解码)解耦已经是 LLM 在线推理的事实标准,但传统 router 只看「这一节点负载多少」、不看「这一节点预热了哪些专家」——这在 MoE 模型上是一笔隐性税。来自 KAIST 和微软亚洲研究院的 ELDR(arXiv:2607.00466,v2 于 7 月 2 日上线)做了两件事:离线时,用请求预填阶段的专家激活分布构建一个"专家签名",再做均衡 K-means 把签名空间分片到不同 decode worker;在线时,把请求路由到与签名最匹配、且负载最轻的 worker。配合按 KV-block 同步粒度维护的 signature cache,ELDR 在 vLLM 上、40 卡规模、3 个 MoE 模型 / 2 种负载下,中位 TPOT 相对四种负载均衡基线最高压减 13.9%,最低也有 5.9%,输出 bitwise 不变。它揭示了一个被性能曲线反复掩盖的事实:MoE 时代,「请求去哪儿」比「请求来多少」更影响延迟。