当大模型推理训练普遍采用 RLVR 时,一个长期被忽视的问题浮出水面:同一 prompt 采样出的多条轨迹若得到相同奖励,group-relative advantage 直接归零,这些样本就被白白丢弃。Mistral AI 与剑桥大学 Han Zhou、Albert Q. Jiang 等人提出的 Reasoning Arena 框架,把这类"零梯度"样本重新路由到 judge 系统,通过 trace tournaments 进行两两对比,挖掘细粒度偏好信号,再用 Bradley-Terry 模型从稀疏比较图中拟合奖励估计,避免 O(n²) 的全配对开销。论文结果显示,这套机制在竞赛数学与编程基准上比标准 RLVR 平均提升 7.6%,训练加速 27%–41%,生成计算节省近 50%。基座模型是 Mistral 自家的 Ministral-3-8B-Instruct-2512,judge 用 DeepSeekMath-V2 与 Qwen3。这把"结果导向"的 RLVR 升级为"过程感知"的细粒度信号回收,是 RLVR 走向工程化效率时代的一个标志性样本。