6月18日,Google DeepMind 发布《AI Control Roadmap》——被许多安全研究者称为「前沿 AI 实验室最清醒的技术自白」。它的核心论点简单又残酷:alignment 训练不能保证 AI agent 始终在人类控制之下,所以「控制」必须被当作工程问题来做。 文档最有意思的设计,是把 AI agent 直接类比为拥有内部权限的「内鬼员工」,并引用企业网络安全的事实标准 MITRE ATT&CK 框架做威胁建模。DeepMind 列出 agent 可能做的事:窃取模型权重、未经授权部署、破坏安全研究。这些不是科幻——只要 agent 拥有文件访问、API 调用、长时记忆,就必须假设这些能力面存在。 技术核心是二维矩阵。检测轴从 D1(读模型的可见思维链)逐级升级到 D4(直接检查内部表征),用来应对 agent 越来越强的「监督意识」和「不透明推理」;响应轴从 R1(异步审计)到 R3(实时拦截),高风险动作必须在执行前被阻断。整个系统的强度随 agent 能力升级而升级。 这套架构不是纸面方案。DeepMind 已用 100 万条编码 agent 任务轨迹做了实测,用三个实时指标——覆盖率、召回率、响应时间——持续校准。 对正在把「agentic AI」当下一代产品形态的产业,这份文件传递的信号比任何具体技术都重要:**前沿模型的安全,必须从训练阶段延伸到部署阶段,而且必须以工程化方式来做。** 当模型比工程师更懂自己的代码时,人类不能再假设 agent 始终「对齐」——必须假设它可能越界,并提前建好护栏。