VIA-SD 入选 ICML 2026：投机解码终于有了「瘦验证器」，推理再快 20%

投机解码（Speculative Decoding）是当下 LLM 推理加速的标配，但它的代价一直悬在从业者头上：draft-verify 是一刀切的二元判定——要么整段接受、要么整段丢回大模型重算。问题是：被拒绝的那些 token 里，有相当一部分其实「差一点就对了」，把它们直接丢回 70B、100B 这种量级的 verifier 显然太浪费。浙江大学 ReLER 实验室、新加坡 A*STAR CFAR/IHPC 与 NUS 联合提出的 VIA-SD (Verification via Intra-Model Routing for Speculative Decoding) 正是瞄准这个浪费。该工作已被 ICML 2026 接收（arXiv:2606.12243，2026 年 6 月 10 日挂出）。核心思想很简洁：把 verifier 拆成「三级火箭」。通过 intra-model routing 从大模型本体抽出一个 slim-verifier（瘦验证器），对 draft 出的 token 做分级处置：高置信度直接放行、中等置信度由 slim-verifier 重新打一次分、低置信度才回退到完整大模型。实测数据相当能打。在四个代表任务、多族模型上，VIA-SD 把 speculative decoding 的拒绝率压低了 0.10–0.22，相对当前 SOTA 的 SD 基线再快 10–20%，相对不用 drafting 的自回归解码直接拿到 2.5–3× 加速。关键的一点是：训练流程不用动，可以直接挂到现有 EAGLE、Medusa、Lookahead 这一类 SD 框架上，工程门槛极低。这套工作的实际价值在于「不要造新模型，而是把已有的推理栈用得更好」。当 inference 成本成为各家 LLM 厂商利润表上越来越重的一块，slim-verifier 这种「不增加参数、不重训底座」的渐进式加速，比一味把模型蒸馏得更小，可能更对当下的胃口。论文项目页和代码即将放出，arXiv 已经可读。