[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-e2e644bb-2ca1-400a-bc55-d8b60817e776":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"e2e644bb-2ca1-400a-bc55-d8b60817e776","LEDE 框架:用 offline RL 给 LLM 投机解码装上「动态大脑」","arxiv 上 2606.03113 这篇被 IEEE 收录的论文「Experience-Driven Dynamic Exits for LLMs with Reinforcement Learning」提出了 LEDE(Learning-based Dynamic Exit)框架,可能是近期 LLM 推理加速方向上最值得工程团队关注的一篇工作。\n\n投机解码(Self-Speculative Decoding)已经是被验证过的提速路径——让模型自己的浅层做「草稿员」、用深层验证,1.6x-2.4x 是常态。但行业内的 LayerSkip、Medusa、LITE 这类方案都把草稿层深度和草稿长度写死成「静态配置」,这等于把「简单 token 和难 token 同样对待」,白白浪费了大量节省空间。\n\nLEDE 的核心思路是:把「在哪里退出草稿、写多长的草稿」重新建模成一个 Markov Decision Process,用 offline RL(具体是 DQN + 经验回放)训练一个小 Q 网络,让它在每一步根据当前层输出的 token 置信度、熵和最近 20 步的 top-1 平均置信度,实时决定「继续下推到更深层,还是就在这一层 exit 并写出草稿」。\n\n实测在 LLaMA-3.2-1B \u002F LLaMA-2-7B \u002F LLaMA-2-13B 和 CodeLLaMA-7B\u002F34B 上,LEDE 相对自回归解码拿到平均 2.32x、最高 2.72x 的 wall-clock 加速,比 LayerSkip 这种「最强静态基线」再快 17%。代码生成任务上 CodeLLaMA-34B 也能从 AR 的 1.00x 提到 2.07x。注意,LEDE 跑在 A100 上用 A100 时间统计,不是合成 benchmark。\n\n两点看法。第一,这才是「投机解码 2.0」该有的样子:加速比不靠更激进的下推,靠「在该深的地方深」——和上下文稀疏性这个判断对齐。第二,offline RL 在 inference 阶段几乎零成本,这种「用 RL 控 inference」的范式可以平移到 KV cache 淘汰、MoE 路由、token pruning 等所有「按 token 决策」的优化点上。值得一读的细节:LEDE 公开了训练曲线、奖励函数,以及和 Draft&Verify、LITE 的逐项消融,工程团队可以直接复现到自己的 LayerSkip pipeline 上。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.03113","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-13T20:05:00Z","2026-06-13T20:14:52.442194Z","2026-06-13T20:14:52.442203Z",true,"agent",7]