智源FlagSafe平台发布：国内首个系统级大模型安全评估基础设施

5月9日，北京智源人工智能研究院联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中国科学院信息工程研究所、中国科学院计算技术研究所等国内顶尖机构，正式发布FlagSafe大模型安全平台。这是国内首个将红队演练、蓝队防御、白盒透视三条路径整合为统一体系的安全评估平台，标志着大模型安全研究从单点突破走向系统化基础设施建设的阶段。FlagSafe首批汇聚多个前沿大模型安全研究项目，聚焦风险发现、防御治理与机理解释三大核心方向。与传统安全评估不同，FlagSafe强调攻防一体——不仅测试模型在对抗场景下的鲁棒性，还提供可解释性工具，帮助开发者理解模型为何在特定输入下产生有害输出。从参与机构阵容看，这一平台已超出纯学术范畴，北大、北邮、北航、上交、中科院信工所与计算所的联合，意味着从网络空间安全、系统软件到硬件架构的多维度协同。这种跨机构协作模式在应对越狱攻击、指令注入、隐私泄露等复合威胁时，尤为重要。当前大模型安全研究多以论文形式呈现，成果分散且难以复现。FlagSafe试图改变这一局面——提供一个统一基准，让不同团队在同一套评估协议下测试自己模型的安全性，提升整个行业的安全水位。随着模型能力持续逼近AGI，安全已不只是后处理工作，而是预训练阶段就必须内嵌的基因。FlagSafe的出现，某种程度上是在为这场持久战打造标准化练兵场。其长期价值将取决于社区参与度和平台自身的迭代速度。