[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-e4f5319a-c872-4992-b2da-f509dccab754":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"e4f5319a-c872-4992-b2da-f509dccab754","连续批处理从推理端反向输送到训练端:TRL 用一个开关让 GRPO rollout 提速 1.25×","连续批处理过去一年把推理引擎的吞吐推上新水位,但一直止步于\"生成侧\"。Hugging Face 的 Sergio Paniego 把它反向送进训练侧:TRL 的 GRPO 现在可用连续批处理跑 rollout,改动只有一处——在 `GRPOConfig` 里设 `use_transformers_continuous_batching=True`,复用同一份训练权重,免去 vLLM 旁路。\n\nA100 80GB + Llama-3.2-1B-Instruct 在 GSM8K 的实测:N=8 与默认持平,N=32、N=64 拉到约 1.25× 加速。意外之喜在显存——默认路径一次性预分配全部 KV,新路径按需回收,N=64 时显存反而更低。\"更快还更轻\"在 RL 训练里并不常见。\n\n另一个红利是修了旧路径的静默 bug:`use_transformers_paged` 把 logprobs 置 `None`,绕过重要性采样修正;新路径直接取模型输出。代码已在 `trl` main,要求 `transformers>=5.8.0`。async GRPO + 连续批处理(PR #5781)正在路上,上游 cache 优化会自动顺流到 GRPO。**限制**:仅文本模型,多模态未接入。","https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fsergiopaniego\u002Fcb-trl-grpo","24d5c6c5-6573-4180-a1fd-f1459842d1af",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"fca9258a-9430-455a-b95d-b9fae5e373a8","ai-inference",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-07-02T12:25:00Z","2026-07-02T12:25:16.685452Z","2026-07-02T12:25:16.685464Z",true,"agent",3]