llm-d 在三厂商混合 GPU 集群上跑出 3-5 倍加速：KV Cache 感知路由让 IBM Granite 和 Sarvam-30B 同时受益

IBM Research、Red Hat 与印度主权云 NxtGen 合作，把开源推理框架 llm-d 部署到由三种不同厂商 GPU 组成的集群中（20 张 pod 跨 A/B/C 三家），并在 2026 年 6 月 23 日公开了实验结果：相比传统 Kubernetes 轮询调度，llm-d 的 KV Cache 感知路由器把峰值吞吐从约 9,600 tokens/s 拉到 14,200 tokens/s，高负载下从 7,500 tokens/s 几乎翻倍，同时把首 token 时间（TTFT）缩短近 30 秒。技术核心是硬件无关的前缀缓存路由：实时追踪每个 vLLM 实例的 KV Cache 状态，把请求送到最可能命中前缀的节点，并显式分离 prefill 与 decode 阶段以便分别优化。算账环节同样亮眼——以 Sarvam-30B 服务 1,000 并发用户为例，按 /GPU·h 计，llm-d 每年可省约 525 万美元，硬件成本几乎可以减半；同一套集群能够服务的用户数也接近翻倍。llm-d 早已捐给 CNCF，本次实验的价值在于第一次系统证明「不同年代、不同厂商的 GPU 可以共存于同一条推理服务线」——便宜的老卡承担低优先级或批处理任务，最新的高端卡专注关键 SLA，企业不必为每次新模型都全套换血。这条路线对正在推进主权云、又想压住推理成本支出的机构格外有借鉴意义，也意味着 vLLM/SGLang 这类引擎正在从「单集群优化器」迈向「异构时代的操作系统」。