让 GRPO 不再「一次即弃」：Rollout 级 Advantage 经验回放把 4B 数学推理多拉 4.35 pp

GRPO（Group Relative Policy Optimization）已是推理大模型后训练的事实标准，但它的样本效率一直被人诟病：每条 rollout 参与一次梯度更新就被丢弃，模型在一次迭代中丢掉了多少有效信息？arXiv 2606.04560（v2, 2026-06-04）提出的「Rollout-Level Advantage-Prioritized Experience Replay for GRPO」就直击这一痛点。【核心机制】作者没去改 GRPO 的目标函数，而是给训练循环加了一个 rollout 级回放缓冲：和 DQN 那种把整组样本存起来再采样的做法不同，这个缓冲只存「单条 rollout」，并通过 age 淘汰（τ_max 步内必须用掉）来控制 staleness。每条 batch 仍保留新鲜的 on-policy rollout，再把回放的 rollout 按 advantage 幅度优先级拼接进来——advantage 越大越被优先采样——既压住 policy drift，又回收 GRPO 浪费掉的「高分 rollout」。【实验数据】作者在 Qwen3-Base 的三个规模（1.5B/4B/14B）和五项数学基准上对比基线 GRPO 与 naive replay：每个规模都是正向提升，且增益随模型变大放大；4B 模型五基准平均 +4.35 pp 最高，AES（Accuracy-Efficiency Score）也拿到 +0.579。【行业意义】这套「fresh-anchored + advantage 优先」组合的价值在于：它不动 GRPO 主干算法，而是把 RLVR 训练里最稀缺的高质量样本榨得更干。从 SFT 切到 RL 时，团队不必再为「浪费的高分 rollout」心疼。对那些已经把基础模型训练走完、正在纠结如何高效做 RLVR 的团队，这种「成本接近零、加在 GRPO 外面」的工程化思路值得第一时间复刻。