2026 年 6 月 25 日,DeepReinforce 开源了 Ornith-1.0 编码模型家族——首个把"训练编排"本身交给模型自己学习的 agentic coding 系列。9B / 31B Dense 与 35B / 397B MoE 四种规格全部以 MIT 协议发布,权重同步上线 Hugging Face,基座选自 Gemma 4 与 Qwen 3.5。 Ornith-1.0 的关键不在参数,而在 Self-Scaffolding 这一训练范式。传统 agentic coding 都是「模型 + 人工设计的固定 harness」,开发者需要为每类任务手写工具调用、错误恢复、子任务规划。Ornith-1.0 反过来:RL 的每一步先让模型读取任务和上一次的 scaffold、提出 refined harness,再以新 harness 生成 solution rollout,奖励同时回流到 policy 与 scaffold。配合异步 pipeline-RL(带 staleness weight 的 token-level GRPO),模型在训练中逐渐进化出"按任务自动选择编排策略"的能力,开发者不必再为每类任务手写 harness。 为防止"模型写 harness"被 reward hacking 利用,DeepReinforce 设了三道防线:固定信任边界(环境、工具、测试隔离均在模型控制外)、确定性 monitor(读测试文件直接零分)、以及一个 frozen LLM judge 作为最终 veto。 效果上,旗舰 Ornith-1.0-397B 在 SWE-Bench Verified 拿到 82.4,Terminal-Bench 2.1 拿到 77.5,超过同尺寸开源对手 Qwen3.5-397B(76.4 / 53.5),也超过 Claude Opus 4.7,但仍未及 Opus 4.8。真正有性价比的是 35B MoE:Terminal-Bench 2.1 拿到 64.2,激活参数仅约 3B,已经反超 Qwen3.5-397B 同项。9B Dense 模型只需 19GB bf16,单卡 80GB GPU 即可本地部署跑失败用例 triage。 这套工作真正的启示在于:当 harness 本身也可学习,agentic coding 的"工程经验"就不再是闭源厂商的护城河,开源社区有可能用更短时间追上 Claude Code / Codex 的人工工程化水平。