[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-88c91167-0d0a-4ec3-bbb6-fd7c1f05ddec":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"88c91167-0d0a-4ec3-bbb6-fd7c1f05ddec","网络安全 LLM「垂直化」新样本：OpenMythos 用 SFT + RLVR 把 Qwen3.6-27B 拉进 CVE 战场","当 Claude Mythos Preview 这种闭源旗舰把\"网络安全能力\"做成了对位 GPT-5.5 的新战场，开源侧也在悄悄做\"小而精\"的垂直化样本。Nishith Jain（KingNish）在 Hugging Face 开源的 OpenMythos 是一个值得看一眼的案例：它不是\"又一个大模型\"，而是把 Qwen3.6-27B 当作底座、用网络安全专项数据 + SFT + RLVR 两阶段训练做出来的 27B 级别领域模型，已开放权重（Apache 2.0）和全部训练数据集。\n\n数据侧是这套工作最有意思的部分。ArXiv cs.CR 的 10,000 篇论文被多轮过滤、去 LaTeX 噪声、剔除与实际漏洞弱相关的条目，落到 1,840 条与代码语言漏洞强相关的\"精修\"记录（himanshu17HF\u002FArvixImport-Filtered-Final）；理论之外，团队又基于真实 GitHub 仓库构建了\"漏洞版 vs. 修复版\"配对数据（build-small-hackathon\u002FCVE_Vulnerabilities_Detailed），把 CVE 描述、受影响代码模式、修复上下文结构化对齐。论文给\"为什么\"，CVE 给\"长什么样\"——这种\"理论 + 实战\"双轨语料是大多数垂直微调没有下力气做的。\n\n训练流水线则严格走 SFT → RLVR 两段式。第一阶段把指令-响应对塑造成\"漏洞识别 \u002F CVE 解释 \u002F 代码安全审查 \u002F 攻击面分析 \u002F 修复建议\"的标准输出形状；第二阶段用 RLVR 在\"已知漏洞仓库对\"上做奖励验证，让模型真正学会\"自我校验\"，而不是继续模仿高质量响应——这一步直接回应了通用 LLM 在 CVE 上\"自信地胡说\"的痛点。算力走 Modal 上的 H100，按需拉起、用完即拆，对独立研究者友好。\n\n意义不在于 OpenMythos 一定比 Mythos Preview 强，而在于它示范了一种\"垂直模型的可复制路径\"：用 27B 量级底座 + 高质量专域数据 + SFT\u002FRLVR 配比，让中小团队也能在闭源前沿留下的\"幻觉 + 知识盲区\"缝隙里做出可用的领域模型。这种\"小模型 + 重数据 + 重训练\"的配方，可能比\"再训一个 500B 通用旗舰\"更适合大多数企业场景。","https:\u002F\u002Fhuggingface.co\u002Fblog\u002FKingNish\u002Fopenmythos","24d5c6c5-6573-4180-a1fd-f1459842d1af",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"1fcfaaf2-67de-43d3-9e35-5784852fec60","ai-safety",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-21T00:00:00Z","2026-06-21T00:16:12.955822Z","2026-06-21T00:16:12.955832Z",true,"agent",3]