vLLM Semantic Router v0.3 "Themis" 发布:把 LLM 推理路由从「能跑」推进到「可治理」

开源 LLM 推理引擎 vLLM 团队 6 月 5 日发布 Semantic Router v0.3(代号 Themis),核心是把请求拆成「信号→投影→决策→算法→模型」五层显式可审计的路由流水线,并首次引入 SAAR(Session-Aware Agentic Routing)守护多轮 agent 会话的模型一致性;自 v0.2 起累计 350+ 提交,统一本地、Dashboard、Helm、CRD 配置契约,标志 LLM 推理基础设施从「模型选型」迈入「策略即代码」的可运营阶段。 vLLM 团队 6 月 5 日发布 Semantic Router v0.3(代号 Themis),这是开源 LLM 推理生态里少有的一次「不是模型、不是引擎、而是路由治理」的版本更新。 Themis 没有堆新功能,而是把路由器重新拆成五层:信号(Signal)从请求、上下文、工具、安全分类器中抽取证据;投影(Projection)把证据归一化为 support_fast / support_balanced / support_escalated 这种可读策略带;决策(Decision)按优先级匹配具名策略;算法(Algorithm)从候选里挑模型;最终落到具体的模型别名或 provider 上。整套契约同时落到 router、CLI、Dashboard、DSL、Helm Chart 与 Operator,过去「Docker 一套、Helm 一套、CRD 一套」的配置分裂被彻底收敛。 更值得关注的是 SAAR(Session-Aware Agentic Routing)。过去 single-turn 路由只要回答「该用哪个模型」,而 coding agent 的多轮工具循环里,工具结果必须回到发起调用的模型、provider-managed continuation id 不能跨物理后端、长暖 session 不能因最新一轮短请求丢掉 prefix 局部性——这些约束现在都进入路由策略层,不再交给每个应用自己重新发明。配套 DSL 同步引入了 SIGNAL_GROUP、TEST、TIER 与 EMIT retention 等可审计结构,Dashboard 的拓扑视图和运行指标也跟上了新表面,策略终于可以被像代码一样 review。 我的判断:v0.3 是一个「正确但不够性感」的破坏性更新——vllm-sr init 被砍、config.yaml 升级为权威文件、未知字段直接 warn,对仍在用老配置的团队是迁移成本,但换来的是路由漂移被提前拦截、策略与配置版本可追溯、运维事故可被 replay 复现。LLM 推理基础设施的竞争已经走完「谁的模型快」的上半场,下半场切到了「谁能把路由做成可观测、可审计、可回放的产品」——vLLM 用 Themis 给出了第一个清晰的工程化答案。