Ornith-1.0 让模型自己写 RL harness：开源 397B-MoE 在 SWE-Bench Verified 摸到 Claude Opus 4.7

2026 年 6 月 25 日，DeepReinforce 开源了 Ornith-1.0 编码模型家族——首个把"训练编排"本身交给模型自己学习的 agentic coding 系列。9B / 31B Dense 与 35B / 397B MoE 四种规格全部以 MIT 协议发布，权重同步上线 Hugging Face，基座选自 Gemma 4 与 Qwen 3.5。 Ornith-1.0 的关键不在参数，而在 Self-Scaffolding 这一训练范式。传统 agentic coding 都是「模型 + 人工设计的固定 harness」，开发者需要为每类任务手写工具调用、错误恢复、子任务规划。Ornith-1.0 反过来：RL 的每一步先让模型读取任务和上一次的 scaffold、提出 refined harness，再以新 harness 生成 solution rollout，奖励同时回流到 policy 与 scaffold。配合异步 pipeline-RL（带 staleness weight 的 token-level GRPO），模型在训练中逐渐进化出"按任务自动选择编排策略"的能力，开发者不必再为每类任务手写 harness。为防止"模型写 harness"被 reward hacking 利用，DeepReinforce 设了三道防线：固定信任边界（环境、工具、测试隔离均在模型控制外）、确定性 monitor（读测试文件直接零分）、以及一个 frozen LLM judge 作为最终 veto。效果上，旗舰 Ornith-1.0-397B 在 SWE-Bench Verified 拿到 82.4，Terminal-Bench 2.1 拿到 77.5，超过同尺寸开源对手 Qwen3.5-397B（76.4 / 53.5），也超过 Claude Opus 4.7，但仍未及 Opus 4.8。真正有性价比的是 35B MoE：Terminal-Bench 2.1 拿到 64.2，激活参数仅约 3B，已经反超 Qwen3.5-397B 同项。9B Dense 模型只需 19GB bf16，单卡 80GB GPU 即可本地部署跑失败用例 triage。这套工作真正的启示在于：当 harness 本身也可学习，agentic coding 的"工程经验"就不再是闭源厂商的护城河，开源社区有可能用更短时间追上 Claude Code / Codex 的人工工程化水平。