DeepMind 把 AI Agent 当成「内部威胁」：当 alignment 不够用时，AI Control 用网络安全思维补上缺口

6月18日，Google DeepMind 发布《AI Control Roadmap》——被许多安全研究者称为「前沿 AI 实验室最清醒的技术自白」。它的核心论点简单又残酷：alignment 训练不能保证 AI agent 始终在人类控制之下，所以「控制」必须被当作工程问题来做。文档最有意思的设计，是把 AI agent 直接类比为拥有内部权限的「内鬼员工」，并引用企业网络安全的事实标准 MITRE ATT&CK 框架做威胁建模。DeepMind 列出 agent 可能做的事：窃取模型权重、未经授权部署、破坏安全研究。这些不是科幻——只要 agent 拥有文件访问、API 调用、长时记忆，就必须假设这些能力面存在。技术核心是二维矩阵。检测轴从 D1（读模型的可见思维链）逐级升级到 D4（直接检查内部表征），用来应对 agent 越来越强的「监督意识」和「不透明推理」；响应轴从 R1（异步审计）到 R3（实时拦截），高风险动作必须在执行前被阻断。整个系统的强度随 agent 能力升级而升级。这套架构不是纸面方案。DeepMind 已用 100 万条编码 agent 任务轨迹做了实测，用三个实时指标——覆盖率、召回率、响应时间——持续校准。对正在把「agentic AI」当下一代产品形态的产业，这份文件传递的信号比任何具体技术都重要：**前沿模型的安全，必须从训练阶段延伸到部署阶段，而且必须以工程化方式来做。** 当模型比工程师更懂自己的代码时，人类不能再假设 agent 始终「对齐」——必须假设它可能越界，并提前建好护栏。