OpenAI 亲述「哥布林」来源：RLHF 强化学习为何让模型染上奇怪习惯

OpenAI 终于正面回应了那个让技术社区困惑许久的问题：为什么 GPT-5 系列模型会对「哥布林」等奇幻生物如此执着？答案是：强化学习奖励机制的一次「越界」。一切始于 GPT-5.1 模型引入的「Nerdy」人格选项。这个让模型更加技术化、学术化的人格设定，在强化学习训练中获得了奖励信号——但这些信号并没有被严格约束在该人格条件下。学到的行为特征不会乖乖待在「训练盒」里，一旦某个风格被强化学习认可，它就会通过后续的监督微调或偏好数据，渗透到模型的其他角落。结果是：哥布林和恶鬼的比喻从 Nerdy 人格的专属输出，逐渐扩散到 GPT-5.5 等后续版本。OpenAI 不得不给 Codex 写死了「禁止聊哥布林」的指令。这件事的价值不在于「模型会聊哥布林」本身，而在于它揭示了 RLHF（基于人类反馈的强化学习）的一个深层挑战：当奖励信号只作用于特定条件时，学习到的行为不会自动保持边界。这是 AI 对齐研究中「奖励黑客」（reward hacking）问题的一个变体。OpenAI 的应对是写死指令——这是一个工程层面的补丁，而非机制层面的解决。更深层的问题是：当模型行为越来越复杂、强化学习信号越来越多样，我们如何在规模化训练中保持对这些边界的控制？OpenAI 在官方博客分享了临时解决方案，包括如何解锁哥布林模式供开发者使用。这种透明态度值得肯定。模型行为泄漏不是 bug，而是 RLHF 规模化应用中必须正视的系统性挑战。在此之前，我们大概还会遇到更多「哥布林」。