大模型推理时,用多次采样 + 投票的策略已经非常普遍——Best-of-N、Majority Vote、Pass@N,这些名字对关注 LLM 进展的人来说都不陌生。但一个长期被忽视的问题是:训练目标与推理策略之间的根本性错位。标准微调(SFT)或强化学习(RL)都在优化单次采样的正确率,却从未考虑模型最终会以“集成”方式被使用。最近一篇来自密歇根大学的论文提出了 Compute Aligned Training(CAT),尝试从训练阶段就解决这个问题。 问题在哪? 以 Pass@100 为例:假设模型已有 50% 的概率答对,继续把答对概率从 50% 提到 90%,对 Pass@100 几乎没有额外增益——成功早已是定局。但标准训练会继续把梯度压向这个方向,造成“有效过训练”。反过来,Majority Vote 是一个竞争过程,p=0.35 的答案只要比最强对手 p=0.1 更高就能获胜,而标准训练却会推着模型把概率推向 1.0,追求“压倒性胜利”。这是两种完全不同的优化逻辑,但今天的模型训练对它们视而不见。 CAT 怎么做? 核心思路很优雅:把推理时的策略(如 Best-of-N、Majority Vote)形式化为作用在基础策略上的算子,再以这个算子作用后的分布作为训练目标。具体而言,CAT 为 SFT 和 RL 分别推导了新的梯度重加权机制,根据单次采样对最终聚合结果的“边际贡献”来分配梯度权重,而不是简单地对答案概率本身做梯度下降。 论文在三类场景验证了效果:LLM 的 SFT 和 RL 场景下 CAT 显著提升了 Pass@N 和 Majority Vote 的表现;超越 LLM,CAT 在蛋白质语言模型(PLM)上同样有效;在策略泛化性上,CAT 框架可以兼容任意推理策略,不局限于某一种。 这意味着什么? Test-time scaling(推理时缩放)已经是提升模型能力的重要方向,但之前的努力主要在推理端——更长的 CoT、更多的采样、更复杂的验证链。CAT 的价值在于指出:如果训练阶段就能让模型“理解”它将以集成方式被使用,推理端的投入将被放大,效率也会更高。 这不是一个复杂的工程技巧,而是一个概念层面的对齐——让模型从“追求每次都答对”变成“追求集成后答对”。随着开源模型越来越多支持本地推理和批量采样,这种训练范式的影响可能会比很多人预期的更早到来。