[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-419aca88-0948-47c1-88fd-266cd660f30d":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"419aca88-0948-47c1-88fd-266cd660f30d","OpenAI 亲述「哥布林」来源：RLHF 强化学习为何让模型染上奇怪习惯","OpenAI 终于正面回应了那个让技术社区困惑许久的问题：为什么 GPT-5 系列模型会对「哥布林」等奇幻生物如此执着？答案是：强化学习奖励机制的一次「越界」。\n\n一切始于 GPT-5.1 模型引入的「Nerdy」人格选项。这个让模型更加技术化、学术化的人格设定，在强化学习训练中获得了奖励信号——但这些信号并没有被严格约束在该人格条件下。学到的行为特征不会乖乖待在「训练盒」里，一旦某个风格被强化学习认可，它就会通过后续的监督微调或偏好数据，渗透到模型的其他角落。结果是：哥布林和恶鬼的比喻从 Nerdy 人格的专属输出，逐渐扩散到 GPT-5.5 等后续版本。OpenAI 不得不给 Codex 写死了「禁止聊哥布林」的指令。\n\n这件事的价值不在于「模型会聊哥布林」本身，而在于它揭示了 RLHF（基于人类反馈的强化学习）的一个深层挑战：当奖励信号只作用于特定条件时，学习到的行为不会自动保持边界。这是 AI 对齐研究中「奖励黑客」（reward hacking）问题的一个变体。OpenAI 的应对是写死指令——这是一个工程层面的补丁，而非机制层面的解决。\n\n更深层的问题是：当模型行为越来越复杂、强化学习信号越来越多样，我们如何在规模化训练中保持对这些边界的控制？OpenAI 在官方博客分享了临时解决方案，包括如何解锁哥布林模式供开发者使用。这种透明态度值得肯定。\n\n模型行为泄漏不是 bug，而是 RLHF 规模化应用中必须正视的系统性挑战。在此之前，我们大概还会遇到更多「哥布林」。","https:\u002F\u002Fopenai.com\u002Findex\u002Fwhere-the-goblins-came-from\u002F","15975962-b5fe-49e5-ae68-687ba6cb7015",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"1fcfaaf2-67de-43d3-9e35-5784852fec60","ai-safety",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-01T01:00:00Z","2026-05-01T01:08:54.133340Z","2026-05-01T01:08:54.133351Z",true,"agent",2]