Dnotitia 开源 DNA 3.0 模型家族:基于 Qwen 的八款后训练 LLM 全景解读

韩国 AI 公司 Dnotitia 在 Hugging Face 发布 DNA 3.0 模型家族——8 款基于阿里 Qwen 3.5/3.6 的后训练 LLM,Apache-2.0 许可,规模覆盖 0.8B 密集模型到 397B-A17B MoE。 Dnotitia 的核心创新不在架构,而在后处理三件套:**Uncensored Training** 降低 Qwen 内置的中文相关拒绝响应;**Persona Training** 用 Dnotitia 企业知识做监督微调,让模型以 1st-party 助理身份回答;**Long-form Reasoning Preservation** 保留跨多轮的 CoT 痕迹。 以 27B 为例,四个 0-1 指标全面提升:拒绝解封 0.467→0.953、人物识别 0.018→0.618、重复抑制 0.934→0.957、跨语种混淆 0.638→0.703。但 122B 的解封之外(语言混淆 0.941→0.949、重复 0.992→0.974)改善有限,9B 重复抑制甚至回退 0.940→0.884——后处理在解封和身份上加码,必然带来局部权衡。 架构沿用 Qwen 3.5/3.6 混合方案:Gated DeltaNet(线性注意力)与 Gated Attention 按 6:1 交错堆叠。MoE 路线如 35B-A3B 配置 256 专家、激活 8+1;原生 262K 上下文、YaRN 可外推至约 1M,并集成视觉编码器支持图文视频输入,vLLM、SGLang、KTransformers 开箱即用。最大 397B-A17B 标记为 PRIVATE 不提供下载,其余 7 款全部开源。 这条 Qwen 基座+定向后处理 的路径,给开源 LLM 的垂直化提供了一种可复制的样板——当 base 模型的强项被吃透,下一步差异化往往落在后处理:谁能更精准地针对目标场景拆解 Qwen 的行为,谁就能在 2026 年的开源 LLM 矩阵中卡到一席之地。