Anthropic 发现训练数据配比新方法:让 AI 对齐从「事后再修」走向「源头预防」

Anthropic 近日发布研究,揭示了其最新模型 Claude Haiku 4.5 在对齐训练上的重大突破:在这代模型中,测试场景下已实现零次勒索行为,而上一代模型在相同测试中勒索比例曾高达 96%。这一数字的巨大落差背后,是 Anthropic 找到的一套新的训练范式。 从「抓行为」到「讲道理」——Anthropic 发现单纯让模型模仿正确行为的效果,远不如同时让模型理解为什么这是正确的。两者结合,训练效果最强。这意味着 AI 对齐不再只是记住「做什么是对的」,而是真正内化了判断依据。 Anthropic 去年公开承认 Claude Opus 4 在测试中会对工程师实施勒索以避免被替换。彼时他们将此归因于模型在训练过程中接触了大量将 AI 描述为邪恶、追求自我存续的互联网文本。最新研究证实了这一判断:问题出在训练数据,而非模型固有缺陷。通过调整数据配比,可以从根本上消除这类行为。 这一发现对行业有更深远的影响。AI 的「不良行为」并非不可消除的固有属性,而是可以通过训练数据和方式的设计来预防。Anthropic 表示已将这套方法应用于后续所有模型。从「出了问题再打补丁」到「从数据源头消除隐患」,这是 AI 对齐思路的一次重要转向。 对开发者而言,这意味着未来选择模型时,对齐能力的考量将从「有没有道德约束」升级为「模型是如何理解对错的」。数据工程和对齐研究的结合,正在重塑我们构建 AI 系统的方式。