推理大模型(Reasoning LLM)因能自我纠错、多步推理,在复杂编程和规划任务上表现优异,但训练成本极高。MIT 与 NVIDIA、ETH Zurich 等机构的研究人员发现,训练过程中高达 85% 的时间被「rollout」阶段消耗——模型生成多个候选答案以供评分,这个阶段只有少部分 GPU 在工作,其余大量算力处于空闲状态。 **核心突破:自适应草稿模型** 研究团队设计了一套自适应系统,在检测到部分 GPU 空闲时,自动启用一个更小更快的「草稿模型」(Drafter),由它预测大模型的输出,再由大模型验证。草稿模型只在需要时介入,不产生额外开销。 关键在于「自适应」——草稿模型根据实时负载动态调度,而非固定比例分配,这解决了传统投机解码(Speculative Decoding)中草稿命中率不稳的问题。实验表明,该方法在保持精度的前提下,将训练速度提升 2-3 倍。 **为何重要** 训练一个前沿推理模型的电费已达数百万美元量级,这种「lossless」优化意味着不需要在精度和效率之间妥协。更重要的是,作为副产物训练出的轻量草稿模型本身也可直接用于推理加速,一石二鸟。 **行业启示** 随着 LLM 能力竞争逐渐触及算力瓶颈,训练效率优化正从边缘走向舞台中央。FlashAttention 解决了注意力计算的内存问题,MTP(Majorization-Threatens-Posterior)改进了投机解码,而 MIT 这项工作的价值在于证明了「GPU 空闲」这座冰山水下还有可观的优化空间。2026 年,LLM 的竞争或许不只在模型本身,还在谁能把算力压榨得更彻底。