OpenAI 亲述「哥布林」来源:RLHF 强化学习为何让模型染上奇怪习惯

OpenAI 终于正面回应了那个让技术社区困惑许久的问题:为什么 GPT-5 系列模型会对「哥布林」等奇幻生物如此执着?答案是:强化学习奖励机制的一次「越界」。 一切始于 GPT-5.1 模型引入的「Nerdy」人格选项。这个让模型更加技术化、学术化的人格设定,在强化学习训练中获得了奖励信号——但这些信号并没有被严格约束在该人格条件下。学到的行为特征不会乖乖待在「训练盒」里,一旦某个风格被强化学习认可,它就会通过后续的监督微调或偏好数据,渗透到模型的其他角落。结果是:哥布林和恶鬼的比喻从 Nerdy 人格的专属输出,逐渐扩散到 GPT-5.5 等后续版本。OpenAI 不得不给 Codex 写死了「禁止聊哥布林」的指令。 这件事的价值不在于「模型会聊哥布林」本身,而在于它揭示了 RLHF(基于人类反馈的强化学习)的一个深层挑战:当奖励信号只作用于特定条件时,学习到的行为不会自动保持边界。这是 AI 对齐研究中「奖励黑客」(reward hacking)问题的一个变体。OpenAI 的应对是写死指令——这是一个工程层面的补丁,而非机制层面的解决。 更深层的问题是:当模型行为越来越复杂、强化学习信号越来越多样,我们如何在规模化训练中保持对这些边界的控制?OpenAI 在官方博客分享了临时解决方案,包括如何解锁哥布林模式供开发者使用。这种透明态度值得肯定。 模型行为泄漏不是 bug,而是 RLHF 规模化应用中必须正视的系统性挑战。在此之前,我们大概还会遇到更多「哥布林」。