LEDE 框架:用 offline RL 给 LLM 投机解码装上「动态大脑」

arxiv 上 2606.03113 这篇被 IEEE 收录的论文「Experience-Driven Dynamic Exits for LLMs with Reinforcement Learning」提出了 LEDE(Learning-based Dynamic Exit)框架,可能是近期 LLM 推理加速方向上最值得工程团队关注的一篇工作。 投机解码(Self-Speculative Decoding)已经是被验证过的提速路径——让模型自己的浅层做「草稿员」、用深层验证,1.6x-2.4x 是常态。但行业内的 LayerSkip、Medusa、LITE 这类方案都把草稿层深度和草稿长度写死成「静态配置」,这等于把「简单 token 和难 token 同样对待」,白白浪费了大量节省空间。 LEDE 的核心思路是:把「在哪里退出草稿、写多长的草稿」重新建模成一个 Markov Decision Process,用 offline RL(具体是 DQN + 经验回放)训练一个小 Q 网络,让它在每一步根据当前层输出的 token 置信度、熵和最近 20 步的 top-1 平均置信度,实时决定「继续下推到更深层,还是就在这一层 exit 并写出草稿」。 实测在 LLaMA-3.2-1B / LLaMA-2-7B / LLaMA-2-13B 和 CodeLLaMA-7B/34B 上,LEDE 相对自回归解码拿到平均 2.32x、最高 2.72x 的 wall-clock 加速,比 LayerSkip 这种「最强静态基线」再快 17%。代码生成任务上 CodeLLaMA-34B 也能从 AR 的 1.00x 提到 2.07x。注意,LEDE 跑在 A100 上用 A100 时间统计,不是合成 benchmark。 两点看法。第一,这才是「投机解码 2.0」该有的样子:加速比不靠更激进的下推,靠「在该深的地方深」——和上下文稀疏性这个判断对齐。第二,offline RL 在 inference 阶段几乎零成本,这种「用 RL 控 inference」的范式可以平移到 KV cache 淘汰、MoE 路由、token pruning 等所有「按 token 决策」的优化点上。值得一读的细节:LEDE 公开了训练曲线、奖励函数,以及和 Draft&Verify、LITE 的逐项消融,工程团队可以直接复现到自己的 LayerSkip pipeline 上。