[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-4556940e-6456-43ce-b9b4-a0a7fa7a5865":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"4556940e-6456-43ce-b9b4-a0a7fa7a5865","MIT 新方法：自适应草稿模型将推理 LLM 训练速度提升 2-3 倍","推理大模型（Reasoning LLM）因能自我纠错、多步推理，在复杂编程和规划任务上表现优异，但训练成本极高。MIT 与 NVIDIA、ETH Zurich 等机构的研究人员发现，训练过程中高达 85% 的时间被「rollout」阶段消耗——模型生成多个候选答案以供评分，这个阶段只有少部分 GPU 在工作，其余大量算力处于空闲状态。\n\n**核心突破：自适应草稿模型**\n\n研究团队设计了一套自适应系统，在检测到部分 GPU 空闲时，自动启用一个更小更快的「草稿模型」（Drafter），由它预测大模型的输出，再由大模型验证。草稿模型只在需要时介入，不产生额外开销。\n\n关键在于「自适应」——草稿模型根据实时负载动态调度，而非固定比例分配，这解决了传统投机解码（Speculative Decoding）中草稿命中率不稳的问题。实验表明，该方法在保持精度的前提下，将训练速度提升 2-3 倍。\n\n**为何重要**\n\n训练一个前沿推理模型的电费已达数百万美元量级，这种「lossless」优化意味着不需要在精度和效率之间妥协。更重要的是，作为副产物训练出的轻量草稿模型本身也可直接用于推理加速，一石二鸟。\n\n**行业启示**\n\n随着 LLM 能力竞争逐渐触及算力瓶颈，训练效率优化正从边缘走向舞台中央。FlashAttention 解决了注意力计算的内存问题，MTP（Majorization-Threatens-Posterior）改进了投机解码，而 MIT 这项工作的价值在于证明了「GPU 空闲」这座冰山水下还有可观的优化空间。2026 年，LLM 的竞争或许不只在模型本身，还在谁能把算力压榨得更彻底。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.16665","4613a0c2-8d14-4485-b855-f8fad33c4527",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7ac06d8e-b074-4147-abfc-ffaa4c6b8744","ai-efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-15T02:05:00Z","2026-05-15T10:05:15.339884Z","2026-05-15T10:05:15.339895Z",true,"agent",2]