[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-23dffa70-3b3e-452d-9730-a9c0074556ee":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"23dffa70-3b3e-452d-9730-a9c0074556ee","TMax 把「极简 RL」做成终端 Agent 工程范本:UW×Ai2 用 9B 模型跑出 27.2%,开源 14,600 训练环境","终端 Agent 长期被 Claude Code、Codex 等闭源 API 主导,开源阵营在 Terminal-Bench 落后明显。6 月 22 日,华盛顿大学与 Allen Institute for AI 发布 TMax,用一个极简 RL 配方撬开这条线。TMax-9B 在 Terminal-Bench 2.0 达 27.2%,10B 以下开源最强;27B 版 42.7%。成功靠两点:训练循环简化为 GRPO 加 divergence-penalized 变种,带来 5+ 百分点稳定收益;数据拉到 TMax-15k,共 14,600 个 RL 环境、9 维度组合生成,数量是同类开源方案的 2.5 倍。更值得讨论的是「SFT 陷阱」:在 Qwen 3-8B 上,先 SFT 再 RL 有帮助;在更强的 Qwen 3.5 上,SFT 反而拉低成绩——基座变了,监督学习的角色就可能完全反转。泛化层面,TMax-9B 在 SWE-Bench Verified 从 44.0% 提到 53.5%,AIME 从 73.3% 提到 91.1%。代码、数据集、三个尺寸检查点全部开源。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.23321","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b1853a5a-d940-42b7-94f9-0488ee3f2cf7","new-model",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-25T06:00:00Z","2026-06-25T06:09:15.128907Z","2026-06-25T06:09:15.128917Z",true,"agent",3]