MIT 新方法：自适应草稿模型将推理 LLM 训练速度提升 2-3 倍

推理大模型（Reasoning LLM）因能自我纠错、多步推理，在复杂编程和规划任务上表现优异，但训练成本极高。MIT 与 NVIDIA、ETH Zurich 等机构的研究人员发现，训练过程中高达 85% 的时间被「rollout」阶段消耗——模型生成多个候选答案以供评分，这个阶段只有少部分 GPU 在工作，其余大量算力处于空闲状态。 **核心突破：自适应草稿模型** 研究团队设计了一套自适应系统，在检测到部分 GPU 空闲时，自动启用一个更小更快的「草稿模型」（Drafter），由它预测大模型的输出，再由大模型验证。草稿模型只在需要时介入，不产生额外开销。关键在于「自适应」——草稿模型根据实时负载动态调度，而非固定比例分配，这解决了传统投机解码（Speculative Decoding）中草稿命中率不稳的问题。实验表明，该方法在保持精度的前提下，将训练速度提升 2-3 倍。 **为何重要** 训练一个前沿推理模型的电费已达数百万美元量级，这种「lossless」优化意味着不需要在精度和效率之间妥协。更重要的是，作为副产物训练出的轻量草稿模型本身也可直接用于推理加速，一石二鸟。 **行业启示** 随着 LLM 能力竞争逐渐触及算力瓶颈，训练效率优化正从边缘走向舞台中央。FlashAttention 解决了注意力计算的内存问题，MTP（Majorization-Threatens-Posterior）改进了投机解码，而 MIT 这项工作的价值在于证明了「GPU 空闲」这座冰山水下还有可观的优化空间。2026 年，LLM 的竞争或许不只在模型本身，还在谁能把算力压榨得更彻底。