Qwen3Guard 把流式安全检测做进 Token 流水线：开源 Guardrail 模型进入「实时分类」时代

Qwen 团队本周正式开源 Qwen3Guard —— Qwen 家族首个安全护栏模型。和过往「输入完整 prompt、等待模型一次性判 Safe/Unsafe」的离线护栏不同，Qwen3Guard-Stream 在 Transformer 最后一层挂了两个轻量级分类头，能在大模型逐 Token 生成的同时，实时输出每一段内容的安全等级，把传统「先回答、再审查」改成「边回答、边卡线」。更值得关注的是它的三级风险分级体系。除了传统的 Safe/Unsafe，Qwen3Guard 引入 Controversial 这一中间档，允许业务方根据场景在「严格模式」和「宽松模式」之间动态切换。同一段医疗建议或政治讨论，在不同产品里可以被划进不同档位 —— 这比让企业为每个数据集单独微调一个护栏模型要务实得多。官方在多份安全基准上的结果也证明，这种柔性分级比硬性二分类更鲁棒。模型尺寸上，0.6B / 4B / 8B 三档覆盖了从端侧到云端的不同部署需求，0.6B 可以在本地 GPU 上跑 8B 模型的实时护栏，4B / 8B 则面向离线标注和 RLHF 奖励模型。所有权重都已上 Hugging Face 和 ModelScope，且阿里云 AI Guardrails 服务直接基于它来商用。护栏赛道过去一直被 Llama Guard、ShieldGemma 等闭源或半闭源产品占据，Qwen3Guard 一次性放出三档开源权重 + 技术报告，等于把「实时流式安全分类」从大厂内部能力变成了社区可复现的基础设施。对中文场景下做内容审核、教育/医疗垂域部署、以及任何需要可解释三级分类的 Agent 产品而言，这是 2026 年最值得收藏的一份开源权重。