后训练方法终于有了统一坐标系:SFT、RLHF、Distillation 到底在做什么? 大模型后训练方法列表越来越长:SFT、RLHF、PPO、DPO、distillation、process supervision……从业者各有偏好,但整个领域长期缺乏统一坐标系来理解这些方法究竟在解决什么问题。2026年5月,一篇来自多所高校联合团队的研究论文提出:将所有后训练方法统一理解为「对模型行为的三层干预」。 ## 两个维度构建的统一坐标系 论文按两个维度分类所有后训练方法。第一维度按轨迹来源划分「离线」(学习外部提供的轨迹)和「在线」(学习模型自身生成的 rollouts)。第二维度按干预目标划分「有效支持扩展」——让有用行为更容易被触及,以及「策略重塑」——在已可触及的区域内改进行为。 在这个坐标系下,SFT 既可以是支持扩展也可以是策略重塑,取决于用的是谁的数据;偏好优化(DPO/PPO)通常是离线的策略重塑;在线 RL 在模型自身生成的 state 上改进行为;而 Distillation 被重新理解为「行为整合」而非单纯的压缩——这个视角的转换是这篇论文最有价值的洞察之一。 ## 为什么这个框架重要 它不只是一个描述性框架,更能用来诊断实际瓶颈。如果你的模型在某个任务上表现差,第一步应该问:是「行为不可及」(需要支持扩展),还是「行为可及但质量不够」(需要策略重塑)?不同的问题对应不同的方法选型,选错方向浪费的不只是计算资源,更是模型能力的天花板。 论文更深层的结论指向一个更大的趋势:2026年的后训练进步越来越依赖「协调的系统设计」而非任何单一主导目标。靠堆 SFT 数据或调 RL 超参就能提升模型的时代正在过去,未来的能力提升将来自对整个后训练 pipeline 的系统性规划。 这意味着,后训练将从「炼金术调参」时代走向「系统工程」时代。