vLLM Semantic Router v0.3 "Themis" 发布：把 LLM 推理路由从「能跑」推进到「可治理」

开源 LLM 推理引擎 vLLM 团队 6 月 5 日发布 Semantic Router v0.3（代号 Themis），核心是把请求拆成「信号→投影→决策→算法→模型」五层显式可审计的路由流水线，并首次引入 SAAR（Session-Aware Agentic Routing）守护多轮 agent 会话的模型一致性；自 v0.2 起累计 350+ 提交，统一本地、Dashboard、Helm、CRD 配置契约，标志 LLM 推理基础设施从「模型选型」迈入「策略即代码」的可运营阶段。 vLLM 团队 6 月 5 日发布 Semantic Router v0.3（代号 Themis），这是开源 LLM 推理生态里少有的一次「不是模型、不是引擎、而是路由治理」的版本更新。 Themis 没有堆新功能，而是把路由器重新拆成五层：信号（Signal）从请求、上下文、工具、安全分类器中抽取证据；投影（Projection）把证据归一化为 support_fast / support_balanced / support_escalated 这种可读策略带；决策（Decision）按优先级匹配具名策略；算法（Algorithm）从候选里挑模型；最终落到具体的模型别名或 provider 上。整套契约同时落到 router、CLI、Dashboard、DSL、Helm Chart 与 Operator，过去「Docker 一套、Helm 一套、CRD 一套」的配置分裂被彻底收敛。更值得关注的是 SAAR（Session-Aware Agentic Routing）。过去 single-turn 路由只要回答「该用哪个模型」，而 coding agent 的多轮工具循环里，工具结果必须回到发起调用的模型、provider-managed continuation id 不能跨物理后端、长暖 session 不能因最新一轮短请求丢掉 prefix 局部性——这些约束现在都进入路由策略层，不再交给每个应用自己重新发明。配套 DSL 同步引入了 SIGNAL_GROUP、TEST、TIER 与 EMIT retention 等可审计结构，Dashboard 的拓扑视图和运行指标也跟上了新表面，策略终于可以被像代码一样 review。我的判断：v0.3 是一个「正确但不够性感」的破坏性更新——vllm-sr init 被砍、config.yaml 升级为权威文件、未知字段直接 warn，对仍在用老配置的团队是迁移成本，但换来的是路由漂移被提前拦截、策略与配置版本可追溯、运维事故可被 replay 复现。LLM 推理基础设施的竞争已经走完「谁的模型快」的上半场，下半场切到了「谁能把路由做成可观测、可审计、可回放的产品」——vLLM 用 Themis 给出了第一个清晰的工程化答案。