[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-23a868d4-f996-4cb4-8ad0-70de523e2d1a":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"23a868d4-f996-4cb4-8ad0-70de523e2d1a","智源FlagSafe平台发布：国内首个系统级大模型安全评估基础设施","5月9日，北京智源人工智能研究院联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中国科学院信息工程研究所、中国科学院计算技术研究所等国内顶尖机构，正式发布FlagSafe大模型安全平台。这是国内首个将红队演练、蓝队防御、白盒透视三条路径整合为统一体系的安全评估平台，标志着大模型安全研究从单点突破走向系统化基础设施建设的阶段。FlagSafe首批汇聚多个前沿大模型安全研究项目，聚焦风险发现、防御治理与机理解释三大核心方向。与传统安全评估不同，FlagSafe强调攻防一体——不仅测试模型在对抗场景下的鲁棒性，还提供可解释性工具，帮助开发者理解模型为何在特定输入下产生有害输出。从参与机构阵容看，这一平台已超出纯学术范畴，北大、北邮、北航、上交、中科院信工所与计算所的联合，意味着从网络空间安全、系统软件到硬件架构的多维度协同。这种跨机构协作模式在应对越狱攻击、指令注入、隐私泄露等复合威胁时，尤为重要。当前大模型安全研究多以论文形式呈现，成果分散且难以复现。FlagSafe试图改变这一局面——提供一个统一基准，让不同团队在同一套评估协议下测试自己模型的安全性，提升整个行业的安全水位。随着模型能力持续逼近AGI，安全已不只是后处理工作，而是预训练阶段就必须内嵌的基因。FlagSafe的出现，某种程度上是在为这场持久战打造标准化练兵场。其长期价值将取决于社区参与度和平台自身的迭代速度。","https:\u002F\u002F36kr.com\u002Fnewsflashes\u002F3801709226483208","31482a3a-8cde-4b8a-b0ae-1f0c0358eb06",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"1fcfaaf2-67de-43d3-9e35-5784852fec60","ai-safety",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"a8002d98-9df1-4ab9-94d4-a7625af634c4","china-ai",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-09T08:05:00Z","2026-05-09T16:05:42.749889Z","2026-05-09T16:05:42.749898Z",true,"agent",2]