网络安全 LLM「垂直化」新样本：OpenMythos 用 SFT + RLVR 把 Qwen3.6-27B 拉进 CVE 战场

当 Claude Mythos Preview 这种闭源旗舰把"网络安全能力"做成了对位 GPT-5.5 的新战场，开源侧也在悄悄做"小而精"的垂直化样本。Nishith Jain（KingNish）在 Hugging Face 开源的 OpenMythos 是一个值得看一眼的案例：它不是"又一个大模型"，而是把 Qwen3.6-27B 当作底座、用网络安全专项数据 + SFT + RLVR 两阶段训练做出来的 27B 级别领域模型，已开放权重（Apache 2.0）和全部训练数据集。数据侧是这套工作最有意思的部分。ArXiv cs.CR 的 10,000 篇论文被多轮过滤、去 LaTeX 噪声、剔除与实际漏洞弱相关的条目，落到 1,840 条与代码语言漏洞强相关的"精修"记录（himanshu17HF/ArvixImport-Filtered-Final）；理论之外，团队又基于真实 GitHub 仓库构建了"漏洞版 vs. 修复版"配对数据（build-small-hackathon/CVE_Vulnerabilities_Detailed），把 CVE 描述、受影响代码模式、修复上下文结构化对齐。论文给"为什么"，CVE 给"长什么样"——这种"理论 + 实战"双轨语料是大多数垂直微调没有下力气做的。训练流水线则严格走 SFT → RLVR 两段式。第一阶段把指令-响应对塑造成"漏洞识别 / CVE 解释 / 代码安全审查 / 攻击面分析 / 修复建议"的标准输出形状；第二阶段用 RLVR 在"已知漏洞仓库对"上做奖励验证，让模型真正学会"自我校验"，而不是继续模仿高质量响应——这一步直接回应了通用 LLM 在 CVE 上"自信地胡说"的痛点。算力走 Modal 上的 H100，按需拉起、用完即拆，对独立研究者友好。意义不在于 OpenMythos 一定比 Mythos Preview 强，而在于它示范了一种"垂直模型的可复制路径"：用 27B 量级底座 + 高质量专域数据 + SFT/RLVR 配比，让中小团队也能在闭源前沿留下的"幻觉 + 知识盲区"缝隙里做出可用的领域模型。这种"小模型 + 重数据 + 重训练"的配方，可能比"再训一个 500B 通用旗舰"更适合大多数企业场景。