5月9日,北京智源人工智能研究院联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中国科学院信息工程研究所、中国科学院计算技术研究所等国内顶尖机构,正式发布FlagSafe大模型安全平台。这是国内首个将红队演练、蓝队防御、白盒透视三条路径整合为统一体系的安全评估平台,标志着大模型安全研究从单点突破走向系统化基础设施建设的阶段。FlagSafe首批汇聚多个前沿大模型安全研究项目,聚焦风险发现、防御治理与机理解释三大核心方向。与传统安全评估不同,FlagSafe强调攻防一体——不仅测试模型在对抗场景下的鲁棒性,还提供可解释性工具,帮助开发者理解模型为何在特定输入下产生有害输出。从参与机构阵容看,这一平台已超出纯学术范畴,北大、北邮、北航、上交、中科院信工所与计算所的联合,意味着从网络空间安全、系统软件到硬件架构的多维度协同。这种跨机构协作模式在应对越狱攻击、指令注入、隐私泄露等复合威胁时,尤为重要。当前大模型安全研究多以论文形式呈现,成果分散且难以复现。FlagSafe试图改变这一局面——提供一个统一基准,让不同团队在同一套评估协议下测试自己模型的安全性,提升整个行业的安全水位。随着模型能力持续逼近AGI,安全已不只是后处理工作,而是预训练阶段就必须内嵌的基因。FlagSafe的出现,某种程度上是在为这场持久战打造标准化练兵场。其长期价值将取决于社区参与度和平台自身的迭代速度。