NebulaExp-8B:ZTE 把「后训练 + 多教师 OPD」做成 8B 全透明复现管线

NebulaExp-8B 是中兴通讯 NebulaL0 后训练团队(Yangqian Wu 等)2026 年 6 月发布在 arXiv(2606.26671)的 8B 后训练工作。其核心贡献不是新模型本身,而是把「数据构造 → SFT → GRPO RL → 蒸馏」四步拆成可复现的工程流水线,并以 Qwen3-8B-base 为底座做了系统 ablation。技术上分两条平行分支:指令分支 NebulaExp-Ins-SFT 用 3.84M 多源样本、跨维度验证过滤、难度分级、多样性采样做三阶段 SFT,平均 benchmark 从 Qwen3-8B-nothink 的 55.01 拉到 60.99,再经 GRPO 推到 61.85;推理分支用 200K 可验证 RL 候选池 + 中等难度 GRPO,把平均推理分从 73.88 提到 75.17。真正有意思的是 MOPD(多教师 On-Policy Distillation):把四个领域专精教师融合,仅用 10K 样本就让基线平均涨 4.18 分;4K 指令样本版本在 IFEval 上比纯 RL 基线高 3.26 分。这条线回应了 RLVR 对任务 verifier 的强依赖问题,对 8B 量级做 RL 的团队很有借鉴价值。本文最大价值是把「黑盒后训练」拆成「配方表」——但作者没公开模型权重也没有 HuggingFace 仓库,想跑实验的团队得自己复刻 Qwen3-8B 训练栈。SFT 与 GRPO 的解耦、跨域数据比例的 ablation 结论,是 2026 上半年开源社区少见的「工业级 recipe 公开」样本。