Anthropic 首次主动扣留模型:Claude Mythos 安全能力过强引发行业担忧

Anthropic首次公开扣留旗舰模型。5月,Anthropic宣布通过Project Glasswing项目,向约50家科技巨头(微软、谷歌、苹果、NVIDIA、摩根大通等)提供Claude Mythos Preview的受限访问,而非公开发布。这款模型在网络安全测试中展现出惊人的攻防双向能力——它不仅能发现开源项目中的23019个高危和严重漏洞(90.6%经独立采样确认真实),还能将多个漏洞串联利用,自主写出可工作的攻击代码。这让Anthropic决定暂时不让所有人都有权访问。 上一次头部AI公司因安全顾虑主动留一手,还是2019年OpenAI扣留GPT-2。Mythos是迄今为止技术力量最强的一次例外。 为什么这事值得关注?因为它触及了AI行业最核心的张力:模型能力越强,潜在的武器化风险就越高,但同时防御方也能用同样的工具来加固系统。Anthropic选择了一条中间道路——让防御者先用起来,同时向政府做了全面汇报。但这并不意味着问题解决了。Anthropic内部研究人员坦言,在模型足够强大到能自动化高级持续性渗透的当下,如何准备一个AI网络战成为现实的世界,目前还没有完整答案。 这给行业敲了一记警钟:当模型的offensive capability开始与最强的国家级黑客工具相当,单纯靠发布后打补丁的策略还管用吗?Mythos的故事说明,AI安全不能只靠对齐研究,还需要安全研究员、政策制定者和模型厂商三方协同,在模型出门之前就把路修好。