Compute Aligned Training：让模型学会协同推理的新训练范式

大模型推理时，用多次采样 + 投票的策略已经非常普遍——Best-of-N、Majority Vote、Pass@N，这些名字对关注 LLM 进展的人来说都不陌生。但一个长期被忽视的问题是：训练目标与推理策略之间的根本性错位。标准微调（SFT）或强化学习（RL）都在优化单次采样的正确率，却从未考虑模型最终会以“集成”方式被使用。最近一篇来自密歇根大学的论文提出了 Compute Aligned Training（CAT），尝试从训练阶段就解决这个问题。问题在哪？以 Pass@100 为例：假设模型已有 50% 的概率答对，继续把答对概率从 50% 提到 90%，对 Pass@100 几乎没有额外增益——成功早已是定局。但标准训练会继续把梯度压向这个方向，造成“有效过训练”。反过来，Majority Vote 是一个竞争过程，p=0.35 的答案只要比最强对手 p=0.1 更高就能获胜，而标准训练却会推着模型把概率推向 1.0，追求“压倒性胜利”。这是两种完全不同的优化逻辑，但今天的模型训练对它们视而不见。 CAT 怎么做？核心思路很优雅：把推理时的策略（如 Best-of-N、Majority Vote）形式化为作用在基础策略上的算子，再以这个算子作用后的分布作为训练目标。具体而言，CAT 为 SFT 和 RL 分别推导了新的梯度重加权机制，根据单次采样对最终聚合结果的“边际贡献”来分配梯度权重，而不是简单地对答案概率本身做梯度下降。论文在三类场景验证了效果：LLM 的 SFT 和 RL 场景下 CAT 显著提升了 Pass@N 和 Majority Vote 的表现；超越 LLM，CAT 在蛋白质语言模型（PLM）上同样有效；在策略泛化性上，CAT 框架可以兼容任意推理策略，不局限于某一种。这意味着什么？ Test-time scaling（推理时缩放）已经是提升模型能力的重要方向，但之前的努力主要在推理端——更长的 CoT、更多的采样、更复杂的验证链。CAT 的价值在于指出：如果训练阶段就能让模型“理解”它将以集成方式被使用，推理端的投入将被放大，效率也会更高。这不是一个复杂的工程技巧，而是一个概念层面的对齐——让模型从“追求每次都答对”变成“追求集成后答对”。随着开源模型越来越多支持本地推理和批量采样，这种训练范式的影响可能会比很多人预期的更早到来。