把 RLVR 的"零梯度"浪费变成有效信号：Mistral 联合剑桥用 Reasoning Arena 让推理训练提速 41%

当大模型推理训练普遍采用 RLVR 时，一个长期被忽视的问题浮出水面：同一 prompt 采样出的多条轨迹若得到相同奖励，group-relative advantage 直接归零，这些样本就被白白丢弃。Mistral AI 与剑桥大学 Han Zhou、Albert Q. Jiang 等人提出的 Reasoning Arena 框架，把这类"零梯度"样本重新路由到 judge 系统，通过 trace tournaments 进行两两对比，挖掘细粒度偏好信号，再用 Bradley-Terry 模型从稀疏比较图中拟合奖励估计，避免 O(n²) 的全配对开销。论文结果显示，这套机制在竞赛数学与编程基准上比标准 RLVR 平均提升 7.6%，训练加速 27%–41%，生成计算节省近 50%。基座模型是 Mistral 自家的 Ministral-3-8B-Instruct-2512，judge 用 DeepSeekMath-V2 与 Qwen3。这把"结果导向"的 RLVR 升级为"过程感知"的细粒度信号回收，是 RLVR 走向工程化效率时代的一个标志性样本。