Anthropic 在 7月2日联合 Amazon、Microsoft、Google 等 Glasswing 合作方,正式推出「Cyber Jailbreak Severity」(CJS) 评分框架——业内首个把 LLM 越狱攻击量化为五档严重程度的统一标准。 CJS 把 jailbreak 拆成四个评分维度:能力增益(攻击者从模型获得的能力是否超出已有工具)、能力广度(同一技巧能否跨多种攻击任务复用)、武器化难度(把技巧变成可用攻击所需的人工量)以及可发现性(威胁行为者获取该技巧的难易)。四轴分数相加落入 CJS-0(信息级)到 CJS-4(关键级)五个等级,等级之间是指数关系——每提升一档风险放大数倍。 框架的最大看点是把 jailbreak 治理对齐到软件安全行业惯用的 CVSS 思路。在 LLM 安全研究长期缺乏统一术语的今天,不同厂商报告「某某 jailbreak」时只能定性描述,导致监管侧和企业侧都难以判断优先级。CJS 把每个发现都映射到一个可对比的数字,Anthropic 已发布 Log4Shell、Bypass 越狱、任务分解等多种历史案例的分级示例。 作为配套动作,Anthropic 启动了 HackerOne 公开漏洞悬赏项目、并组建 24/7 监控团队追踪 jailbreak 提交渠道。Fable 5 部署的 classifier 在新框架下重新校准,目标是把「safety margin」缩到刚好能拦住 CJS-2 以上的真实威胁。 观点上,这是 LLM 安全从「各家自证」走向「行业共评」的关键一步。但 CJS 是否会成为 de facto 标准,取决于 OpenAI、Google DeepMind、Meta 是否采纳——若只有 Anthropic 一家用,这套评分就只能约束 Anthropic 自己的模型释放节奏。