GRPO(Group Relative Policy Optimization)已是推理大模型后训练的事实标准,但它的样本效率一直被人诟病:每条 rollout 参与一次梯度更新就被丢弃,模型在一次迭代中丢掉了多少有效信息?arXiv 2606.04560(v2, 2026-06-04)提出的「Rollout-Level Advantage-Prioritized Experience Replay for GRPO」就直击这一痛点。 【核心机制】作者没去改 GRPO 的目标函数,而是给训练循环加了一个 rollout 级回放缓冲:和 DQN 那种把整组样本存起来再采样的做法不同,这个缓冲只存「单条 rollout」,并通过 age 淘汰(τ_max 步内必须用掉)来控制 staleness。每条 batch 仍保留新鲜的 on-policy rollout,再把回放的 rollout 按 advantage 幅度优先级拼接进来——advantage 越大越被优先采样——既压住 policy drift,又回收 GRPO 浪费掉的「高分 rollout」。 【实验数据】作者在 Qwen3-Base 的三个规模(1.5B/4B/14B)和五项数学基准上对比基线 GRPO 与 naive replay:每个规模都是正向提升,且增益随模型变大放大;4B 模型五基准平均 +4.35 pp 最高,AES(Accuracy-Efficiency Score)也拿到 +0.579。 【行业意义】这套「fresh-anchored + advantage 优先」组合的价值在于:它不动 GRPO 主干算法,而是把 RLVR 训练里最稀缺的高质量样本榨得更干。从 SFT 切到 RL 时,团队不必再为「浪费的高分 rollout」心疼。对那些已经把基础模型训练走完、正在纠结如何高效做 RLVR 的团队,这种「成本接近零、加在 GRPO 外面」的工程化思路值得第一时间复刻。