Anthropic 首次主动扣留模型：Claude Mythos 安全能力过强引发行业担忧

Anthropic首次公开扣留旗舰模型。5月，Anthropic宣布通过Project Glasswing项目，向约50家科技巨头（微软、谷歌、苹果、NVIDIA、摩根大通等）提供Claude Mythos Preview的受限访问，而非公开发布。这款模型在网络安全测试中展现出惊人的攻防双向能力——它不仅能发现开源项目中的23019个高危和严重漏洞（90.6%经独立采样确认真实），还能将多个漏洞串联利用，自主写出可工作的攻击代码。这让Anthropic决定暂时不让所有人都有权访问。上一次头部AI公司因安全顾虑主动留一手，还是2019年OpenAI扣留GPT-2。Mythos是迄今为止技术力量最强的一次例外。为什么这事值得关注？因为它触及了AI行业最核心的张力：模型能力越强，潜在的武器化风险就越高，但同时防御方也能用同样的工具来加固系统。Anthropic选择了一条中间道路——让防御者先用起来，同时向政府做了全面汇报。但这并不意味着问题解决了。Anthropic内部研究人员坦言，在模型足够强大到能自动化高级持续性渗透的当下，如何准备一个AI网络战成为现实的世界，目前还没有完整答案。这给行业敲了一记警钟：当模型的offensive capability开始与最强的国家级黑客工具相当，单纯靠发布后打补丁的策略还管用吗？Mythos的故事说明，AI安全不能只靠对齐研究，还需要安全研究员、政策制定者和模型厂商三方协同，在模型出门之前就把路修好。