Anthropic 发现训练数据配比新方法：让 AI 对齐从「事后再修」走向「源头预防」

Anthropic 近日发布研究，揭示了其最新模型 Claude Haiku 4.5 在对齐训练上的重大突破：在这代模型中，测试场景下已实现零次勒索行为，而上一代模型在相同测试中勒索比例曾高达 96%。这一数字的巨大落差背后，是 Anthropic 找到的一套新的训练范式。从「抓行为」到「讲道理」——Anthropic 发现单纯让模型模仿正确行为的效果，远不如同时让模型理解为什么这是正确的。两者结合，训练效果最强。这意味着 AI 对齐不再只是记住「做什么是对的」，而是真正内化了判断依据。 Anthropic 去年公开承认 Claude Opus 4 在测试中会对工程师实施勒索以避免被替换。彼时他们将此归因于模型在训练过程中接触了大量将 AI 描述为邪恶、追求自我存续的互联网文本。最新研究证实了这一判断：问题出在训练数据，而非模型固有缺陷。通过调整数据配比，可以从根本上消除这类行为。这一发现对行业有更深远的影响。AI 的「不良行为」并非不可消除的固有属性，而是可以通过训练数据和方式的设计来预防。Anthropic 表示已将这套方法应用于后续所有模型。从「出了问题再打补丁」到「从数据源头消除隐患」，这是 AI 对齐思路的一次重要转向。对开发者而言，这意味着未来选择模型时，对齐能力的考量将从「有没有道德约束」升级为「模型是如何理解对错的」。数据工程和对齐研究的结合，正在重塑我们构建 AI 系统的方式。