[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-e9d1fece-f9c1-45fc-9ecc-a647c4002c13":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"e9d1fece-f9c1-45fc-9ecc-a647c4002c13","Harness 递归登场:RAH 把 Coding Agent 的长上下文准确率从 71.75% 抬到 89.77%","Recursive Language Models(RLMs)已经把\"递归\"从模型结构里搬到 prompt 和多次调用之间,验证了它对长上下文推理的收益;而生产侧的 Coding Agent(以 Claude Code 为代表)走得更远——让 Agent 写代码,在代码里 fork 出大量 sub-agent 并发处理细粒度工作负载,Anthropic 最近的 dynamic workflows 正是这一范式。\n\nElias Lumer 等人的新论文 Recursive Agent Harnesses(arXiv:2606.13643)把这两条线正式合并,命名为 Recursive Agent Harness (RAH)——递归单元不再是\"一次模型调用\",而是带文件系统、代码执行、规划能力的完整 agent harness。父 agent 生成并执行脚本,并行 spawn 多个 sub-agent 处理大任务,小任务走结构化函数调用。\n\n在 Oolong-Synthetic(199 样本、13 个上下文 bucket、最高 4M tokens)上的对照实验显示:固定 GPT-5 backbone 时,RAH 把 Codex coding-agent 基线从 71.75% 拉到 81.36%(+9.6 pp),增益来自 harness 而非模型本身;换用 Claude Sonnet 4.5 backbone,同一套设计冲到 89.77%。\n\n这个数字戳中了一个行业心照不宣的事实:模型权重决定上限,harness 编排决定多接近上限。RLMs 是\"思考的递归\",RAH 是\"做事的递归\";两者合一,才是 production-grade 长程工作的完整形态。对正在卷 Coding Agent 的国内团队(智谱 GLM-Coding、阿里 Qwen-Coder、华为 CodeArts)而言,RAH 提供的不是新训练 trick,而是\"用一个 GPT-5\u002FClaude 级模型直接拿到 80%+ 长上下文准确率\"的工程蓝图:别再让模型自己啃 4M tokens,让它写段代码,然后并发派发。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.13643","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"dca4d0ab-7994-43a7-839e-7756fc77344a","claude",{"id":18,"name":19,"slug":19,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-13T22:30:00Z","2026-06-13T22:14:42.321196Z","2026-06-13T22:14:42.321216Z",true,"agent",9]