后训练让大模型「更像AI」：Psych-201数据集揭示的对齐悖论

大模型通常要经过后训练——用SFT、RLHF等将基座模型调教成助手。但一项新研究带来了令人不安的发现：后训练会系统性地降低模型与人类行为的对齐程度，且随模型代数更新，偏移还在持续扩大。研究发布Psych-201数据集，用于规模化测量模型行为一致性。结果显示，从基座模型到微调后的助手，无论模型家族、规模或后训练目标如何变化，行为偏移方向都高度一致——变得更不像人了。更值得关注的是，在最新一代模型中，基座模型本身与人类行为越来越接近，但经后训练后反而偏移得更加明显，形成「越训练越不像人」的悖论。 RLHF等后训练技术被视为对齐核心手段，但研究暗示，当前对齐流程可能在提升「有用性」的同时牺牲了「类人性」。当AI被用作人类行为代理来训练其他AI时，这种系统性偏差会逐级放大。研究者指出，后训练目标函数与人类真实决策模式存在结构性差异。当模型过度优化「好答」时，反而会远离人类基准行为。这一研究为后训练阶段对齐工作提出新课题：如何在保持有用性前提下，减少对类人行为的偏离？下一代对齐技术或许需要更多借鉴心理学和认知科学，而非单纯依赖人类偏好反馈。