MIT新方法利用计算空闲周期:推理模型训练速度翻倍,能耗减半

推理大语言模型(RLLM)通过逐步分解复杂问题来得出答案,在高级编程和多步规划等任务上表现出色。然而,其训练过程却面临严重的效率瓶颈:MIT 研究团队发现,在强化学习训练中,生成多个候选答案的 rollout 阶段占据了高达 85% 的执行时间,而模型权重更新这一真正的训练部分反而耗时甚少。当部分高性能处理器忙于生成候选答案时,其他处理器只能处于空闲等待状态,造成算力的巨大浪费。\n\n针对这一问题,MIT 与 NVIDIA、ETH Zurich、MIT-IBM Watson AI Lab 及 UMass Amherst 的联合团队提出了一种自适应训练方法:用一个更小更快的辅助模型来预测主推理模型的输出,再由主模型验证这些预测。当某些处理器空闲时,辅助模型接管其算力;当主模型需要验证时,辅助模型暂停工作。这种自适应调度机制确保了 GPU 集群中的每一块芯片都不会被闲置,在不损失精度的情况下将训练速度提升了一倍,同时降低了能耗和成本。\n\n这一成果的更大意义在于,它揭示了当前 RL 训练范式的一个系统性缺陷——当行业普遍追求更大参数、更多算力时,训练流程本身的效率问题往往被忽视。对行业而言,这一突破的启示是:更高效的 RL 训练方法意味着未来可以用更少的资源训练出更强能力的推理模型;训练系统本身的优化可能是下一阶段 AI 进步的关键杠杆。