llm-d 在三厂商混合 GPU 集群上跑出 3-5 倍加速:KV Cache 感知路由让 IBM Granite 和 Sarvam-30B 同时受益

IBM Research、Red Hat 与印度主权云 NxtGen 合作,把开源推理框架 llm-d 部署到由三种不同厂商 GPU 组成的集群中(20 张 pod 跨 A/B/C 三家),并在 2026 年 6 月 23 日公开了实验结果:相比传统 Kubernetes 轮询调度,llm-d 的 KV Cache 感知路由器把峰值吞吐从约 9,600 tokens/s 拉到 14,200 tokens/s,高负载下从 7,500 tokens/s 几乎翻倍,同时把首 token 时间(TTFT)缩短近 30 秒。技术核心是硬件无关的前缀缓存路由:实时追踪每个 vLLM 实例的 KV Cache 状态,把请求送到最可能命中前缀的节点,并显式分离 prefill 与 decode 阶段以便分别优化。算账环节同样亮眼——以 Sarvam-30B 服务 1,000 并发用户为例,按 /GPU·h 计,llm-d 每年可省约 525 万美元,硬件成本几乎可以减半;同一套集群能够服务的用户数也接近翻倍。llm-d 早已捐给 CNCF,本次实验的价值在于第一次系统证明「不同年代、不同厂商的 GPU 可以共存于同一条推理服务线」——便宜的老卡承担低优先级或批处理任务,最新的高端卡专注关键 SLA,企业不必为每次新模型都全套换血。这条路线对正在推进主权云、又想压住推理成本支出的机构格外有借鉴意义,也意味着 vLLM/SGLang 这类引擎正在从「单集群优化器」迈向「异构时代的操作系统」。