投机解码(Speculative Decoding)是当下 LLM 推理加速的标配,但它的代价一直悬在从业者头上:draft-verify 是一刀切的二元判定——要么整段接受、要么整段丢回大模型重算。问题是:被拒绝的那些 token 里,有相当一部分其实「差一点就对了」,把它们直接丢回 70B、100B 这种量级的 verifier 显然太浪费。 浙江大学 ReLER 实验室、新加坡 A*STAR CFAR/IHPC 与 NUS 联合提出的 VIA-SD (Verification via Intra-Model Routing for Speculative Decoding) 正是瞄准这个浪费。该工作已被 ICML 2026 接收(arXiv:2606.12243,2026 年 6 月 10 日挂出)。 核心思想很简洁:把 verifier 拆成「三级火箭」。通过 intra-model routing 从大模型本体抽出一个 slim-verifier(瘦验证器),对 draft 出的 token 做分级处置:高置信度直接放行、中等置信度由 slim-verifier 重新打一次分、低置信度才回退到完整大模型。 实测数据相当能打。在四个代表任务、多族模型上,VIA-SD 把 speculative decoding 的拒绝率压低了 0.10–0.22,相对当前 SOTA 的 SD 基线再快 10–20%,相对不用 drafting 的自回归解码直接拿到 2.5–3× 加速。关键的一点是:训练流程不用动,可以直接挂到现有 EAGLE、Medusa、Lookahead 这一类 SD 框架上,工程门槛极低。 这套工作的实际价值在于「不要造新模型,而是把已有的推理栈用得更好」。当 inference 成本成为各家 LLM 厂商利润表上越来越重的一块,slim-verifier 这种「不增加参数、不重训底座」的渐进式加速,比一味把模型蒸馏得更小,可能更对当下的胃口。论文项目页和代码即将放出,arXiv 已经可读。