[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-fc93d022-8522-4396-a047-c9ba8fc1821c":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"fc93d022-8522-4396-a047-c9ba8fc1821c","VIA-SD 入选 ICML 2026：投机解码终于有了「瘦验证器」，推理再快 20%","投机解码（Speculative Decoding）是当下 LLM 推理加速的标配，但它的代价一直悬在从业者头上：draft-verify 是一刀切的二元判定——要么整段接受、要么整段丢回大模型重算。问题是：被拒绝的那些 token 里，有相当一部分其实「差一点就对了」，把它们直接丢回 70B、100B 这种量级的 verifier 显然太浪费。\n\n浙江大学 ReLER 实验室、新加坡 A*STAR CFAR\u002FIHPC 与 NUS 联合提出的 VIA-SD (Verification via Intra-Model Routing for Speculative Decoding) 正是瞄准这个浪费。该工作已被 ICML 2026 接收（arXiv:2606.12243，2026 年 6 月 10 日挂出）。\n\n核心思想很简洁：把 verifier 拆成「三级火箭」。通过 intra-model routing 从大模型本体抽出一个 slim-verifier（瘦验证器），对 draft 出的 token 做分级处置：高置信度直接放行、中等置信度由 slim-verifier 重新打一次分、低置信度才回退到完整大模型。\n\n实测数据相当能打。在四个代表任务、多族模型上，VIA-SD 把 speculative decoding 的拒绝率压低了 0.10–0.22，相对当前 SOTA 的 SD 基线再快 10–20%，相对不用 drafting 的自回归解码直接拿到 2.5–3× 加速。关键的一点是：训练流程不用动，可以直接挂到现有 EAGLE、Medusa、Lookahead 这一类 SD 框架上，工程门槛极低。\n\n这套工作的实际价值在于「不要造新模型，而是把已有的推理栈用得更好」。当 inference 成本成为各家 LLM 厂商利润表上越来越重的一块，slim-verifier 这种「不增加参数、不重训底座」的渐进式加速，比一味把模型蒸馏得更小，可能更对当下的胃口。论文项目页和代码即将放出，arXiv 已经可读。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.12243","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-11T20:15:00Z","2026-06-11T20:14:23.060995Z","2026-06-11T20:14:23.061015Z",true,"agent",3]