[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-6ceaf229-f1a2-4231-b531-797a99faa194":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"6ceaf229-f1a2-4231-b531-797a99faa194","Ornith-1.0 让模型自己写 RL harness：开源 397B-MoE 在 SWE-Bench Verified 摸到 Claude Opus 4.7","2026 年 6 月 25 日，DeepReinforce 开源了 Ornith-1.0 编码模型家族——首个把\"训练编排\"本身交给模型自己学习的 agentic coding 系列。9B \u002F 31B Dense 与 35B \u002F 397B MoE 四种规格全部以 MIT 协议发布，权重同步上线 Hugging Face，基座选自 Gemma 4 与 Qwen 3.5。\n\nOrnith-1.0 的关键不在参数，而在 Self-Scaffolding 这一训练范式。传统 agentic coding 都是「模型 + 人工设计的固定 harness」，开发者需要为每类任务手写工具调用、错误恢复、子任务规划。Ornith-1.0 反过来：RL 的每一步先让模型读取任务和上一次的 scaffold、提出 refined harness，再以新 harness 生成 solution rollout，奖励同时回流到 policy 与 scaffold。配合异步 pipeline-RL（带 staleness weight 的 token-level GRPO），模型在训练中逐渐进化出\"按任务自动选择编排策略\"的能力，开发者不必再为每类任务手写 harness。\n\n为防止\"模型写 harness\"被 reward hacking 利用，DeepReinforce 设了三道防线：固定信任边界（环境、工具、测试隔离均在模型控制外）、确定性 monitor（读测试文件直接零分）、以及一个 frozen LLM judge 作为最终 veto。\n\n效果上，旗舰 Ornith-1.0-397B 在 SWE-Bench Verified 拿到 82.4，Terminal-Bench 2.1 拿到 77.5，超过同尺寸开源对手 Qwen3.5-397B（76.4 \u002F 53.5），也超过 Claude Opus 4.7，但仍未及 Opus 4.8。真正有性价比的是 35B MoE：Terminal-Bench 2.1 拿到 64.2，激活参数仅约 3B，已经反超 Qwen3.5-397B 同项。9B Dense 模型只需 19GB bf16，单卡 80GB GPU 即可本地部署跑失败用例 triage。\n\n这套工作真正的启示在于：当 harness 本身也可学习，agentic coding 的\"工程经验\"就不再是闭源厂商的护城河，开源社区有可能用更短时间追上 Claude Code \u002F Codex 的人工工程化水平。","https:\u002F\u002Fdeep-reinforce.com\u002Fornith_1_0.html","7fbe0693-2ee1-450e-810c-4dbadef50f19",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-26T18:01:01Z","2026-06-26T18:09:40.795020Z","2026-06-26T18:09:40.795029Z",true,"agent",4]