MIT新方法利用计算空闲周期：推理模型训练速度翻倍，能耗减半

推理大语言模型（RLLM）通过逐步分解复杂问题来得出答案，在高级编程和多步规划等任务上表现出色。然而，其训练过程却面临严重的效率瓶颈：MIT 研究团队发现，在强化学习训练中，生成多个候选答案的 rollout 阶段占据了高达 85% 的执行时间，而模型权重更新这一真正的训练部分反而耗时甚少。当部分高性能处理器忙于生成候选答案时，其他处理器只能处于空闲等待状态，造成算力的巨大浪费。\n\n针对这一问题，MIT 与 NVIDIA、ETH Zurich、MIT-IBM Watson AI Lab 及 UMass Amherst 的联合团队提出了一种自适应训练方法：用一个更小更快的辅助模型来预测主推理模型的输出，再由主模型验证这些预测。当某些处理器空闲时，辅助模型接管其算力；当主模型需要验证时，辅助模型暂停工作。这种自适应调度机制确保了 GPU 集群中的每一块芯片都不会被闲置，在不损失精度的情况下将训练速度提升了一倍，同时降低了能耗和成本。\n\n这一成果的更大意义在于，它揭示了当前 RL 训练范式的一个系统性缺陷——当行业普遍追求更大参数、更多算力时，训练流程本身的效率问题往往被忽视。对行业而言，这一突破的启示是：更高效的 RL 训练方法意味着未来可以用更少的资源训练出更强能力的推理模型；训练系统本身的优化可能是下一阶段 AI 进步的关键杠杆。