连续批处理从推理端反向输送到训练端:TRL 用一个开关让 GRPO rollout 提速 1.25×

连续批处理过去一年把推理引擎的吞吐推上新水位,但一直止步于"生成侧"。Hugging Face 的 Sergio Paniego 把它反向送进训练侧:TRL 的 GRPO 现在可用连续批处理跑 rollout,改动只有一处——在 `GRPOConfig` 里设 `use_transformers_continuous_batching=True`,复用同一份训练权重,免去 vLLM 旁路。 A100 80GB + Llama-3.2-1B-Instruct 在 GSM8K 的实测:N=8 与默认持平,N=32、N=64 拉到约 1.25× 加速。意外之喜在显存——默认路径一次性预分配全部 KV,新路径按需回收,N=64 时显存反而更低。"更快还更轻"在 RL 训练里并不常见。另一个红利是修了旧路径的静默 bug:`use_transformers_paged` 把 logprobs 置 `None`,绕过重要性采样修正;新路径直接取模型输出。代码已在 `trl` main,要求 `transformers>=5.8.0`。async GRPO + 连续批处理(PR #5781)正在路上,上游 cache 优化会自动顺流到 GRPO。**限制**:仅文本模型,多模态未接入。