Qwen 团队本周正式开源 Qwen3Guard —— Qwen 家族首个安全护栏模型。和过往「输入完整 prompt、等待模型一次性判 Safe/Unsafe」的离线护栏不同,Qwen3Guard-Stream 在 Transformer 最后一层挂了两个轻量级分类头,能在大模型逐 Token 生成的同时,实时输出每一段内容的安全等级,把传统「先回答、再审查」改成「边回答、边卡线」。 更值得关注的是它的三级风险分级体系。除了传统的 Safe/Unsafe,Qwen3Guard 引入 Controversial 这一中间档,允许业务方根据场景在「严格模式」和「宽松模式」之间动态切换。同一段医疗建议或政治讨论,在不同产品里可以被划进不同档位 —— 这比让企业为每个数据集单独微调一个护栏模型要务实得多。官方在多份安全基准上的结果也证明,这种柔性分级比硬性二分类更鲁棒。 模型尺寸上,0.6B / 4B / 8B 三档覆盖了从端侧到云端的不同部署需求,0.6B 可以在本地 GPU 上跑 8B 模型的实时护栏,4B / 8B 则面向离线标注和 RLHF 奖励模型。所有权重都已上 Hugging Face 和 ModelScope,且阿里云 AI Guardrails 服务直接基于它来商用。 护栏赛道过去一直被 Llama Guard、ShieldGemma 等闭源或半闭源产品占据,Qwen3Guard 一次性放出三档开源权重 + 技术报告,等于把「实时流式安全分类」从大厂内部能力变成了社区可复现的基础设施。对中文场景下做内容审核、教育/医疗垂域部署、以及任何需要可解释三级分类的 Agent 产品而言,这是 2026 年最值得收藏的一份开源权重。