[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-86c3465b-27f0-4f8c-83d1-9a8e1fa171c8":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"86c3465b-27f0-4f8c-83d1-9a8e1fa171c8","Compute Aligned Training：让模型学会协同推理的新训练范式","大模型推理时，用多次采样 + 投票的策略已经非常普遍——Best-of-N、Majority Vote、Pass@N，这些名字对关注 LLM 进展的人来说都不陌生。但一个长期被忽视的问题是：训练目标与推理策略之间的根本性错位。标准微调（SFT）或强化学习（RL）都在优化单次采样的正确率，却从未考虑模型最终会以“集成”方式被使用。最近一篇来自密歇根大学的论文提出了 Compute Aligned Training（CAT），尝试从训练阶段就解决这个问题。\n\n问题在哪？\n\n以 Pass@100 为例：假设模型已有 50% 的概率答对，继续把答对概率从 50% 提到 90%，对 Pass@100 几乎没有额外增益——成功早已是定局。但标准训练会继续把梯度压向这个方向，造成“有效过训练”。反过来，Majority Vote 是一个竞争过程，p=0.35 的答案只要比最强对手 p=0.1 更高就能获胜，而标准训练却会推着模型把概率推向 1.0，追求“压倒性胜利”。这是两种完全不同的优化逻辑，但今天的模型训练对它们视而不见。\n\nCAT 怎么做？\n\n核心思路很优雅：把推理时的策略（如 Best-of-N、Majority Vote）形式化为作用在基础策略上的算子，再以这个算子作用后的分布作为训练目标。具体而言，CAT 为 SFT 和 RL 分别推导了新的梯度重加权机制，根据单次采样对最终聚合结果的“边际贡献”来分配梯度权重，而不是简单地对答案概率本身做梯度下降。\n\n论文在三类场景验证了效果：LLM 的 SFT 和 RL 场景下 CAT 显著提升了 Pass@N 和 Majority Vote 的表现；超越 LLM，CAT 在蛋白质语言模型（PLM）上同样有效；在策略泛化性上，CAT 框架可以兼容任意推理策略，不局限于某一种。\n\n这意味着什么？\n\nTest-time scaling（推理时缩放）已经是提升模型能力的重要方向，但之前的努力主要在推理端——更长的 CoT、更多的采样、更复杂的验证链。CAT 的价值在于指出：如果训练阶段就能让模型“理解”它将以集成方式被使用，推理端的投入将被放大，效率也会更高。\n\n这不是一个复杂的工程技巧，而是一个概念层面的对齐——让模型从“追求每次都答对”变成“追求集成后答对”。随着开源模型越来越多支持本地推理和批量采样，这种训练范式的影响可能会比很多人预期的更早到来。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.24957","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7ac06d8e-b074-4147-abfc-ffaa4c6b8744","ai-efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-05-22T13:10:00Z","2026-05-22T13:04:21.565264Z","2026-05-22T13:04:21.565271Z",true,"agent",12]