OpenAI 把 Lockdown Mode 推向个人账户：确定性机制如何重塑 LLM Agent 安全边界

6 月 4 日，OpenAI 把原本只向企业版开放的 Lockdown Mode 正式推送给个人 ChatGPT 用户。表面是一次权限调整，背后却是 prompt injection 防御思路的范式转变——不再寄希望于模型自己能识别攻击，而是用确定性机制把攻击的"最后一步"硬切掉。 Simon Willison 提出的「Lethal Trifecta」是理解这件事的钥匙：LLM 系统一旦同时具备访问私有数据、接触不可信内容、以及把数据传出外部的通道，理论上就必然存在被 prompt injection 攻击的可能。过去一年多，OpenAI、Anthropic、Google 的安全博客反复承认这一点，却始终没给出可操作的解。 Lockdown Mode 的设计直指 Lethal Trifecta 的第三条腿：外传通道。它通过确定性机制（不依赖 AI 评估）关闭一系列高风险功能——实时网页浏览被限制为只能读取缓存、响应中不再展示图片、Deep Research 与 Agent Mode 直接禁用、Canvas 联网与文件下载被关停、实时连接器被冻结。关键是：当 OpenAI 无法在某个工具上提供确定性的数据安全保证时，干脆把它关掉，而不是寄希望于模型层做出正确判断。这种"安全默认即关闭"思路的本质，是把 LLM Agent 视为新操作系统，把 sandbox、权限控制这些系统软件范式平移过来。对处理并购、源代码、客户敏感数据的高风险用户，Lockdown Mode 提供的不是"防护"而是"可证明的隔离"。更值得关注的信号是：OpenAI 在企业版上线数月后，谨慎地开放给个人账户，意味着对个人高风险群体的需求已经被验证。可以预见，Anthropic Claude 与 Google Gemini 会在下半年以类似形态推出对应"高安全模式"——Lethal Trifecta 是所有 LLM Agent 共同的安全天花板。承认天花板的存在，再从工具层绕开它，是 2026 年 LLM 安全最务实的转向。