Harness 递归登场:RAH 把 Coding Agent 的长上下文准确率从 71.75% 抬到 89.77%

Recursive Language Models(RLMs)已经把"递归"从模型结构里搬到 prompt 和多次调用之间,验证了它对长上下文推理的收益;而生产侧的 Coding Agent(以 Claude Code 为代表)走得更远——让 Agent 写代码,在代码里 fork 出大量 sub-agent 并发处理细粒度工作负载,Anthropic 最近的 dynamic workflows 正是这一范式。 Elias Lumer 等人的新论文 Recursive Agent Harnesses(arXiv:2606.13643)把这两条线正式合并,命名为 Recursive Agent Harness (RAH)——递归单元不再是"一次模型调用",而是带文件系统、代码执行、规划能力的完整 agent harness。父 agent 生成并执行脚本,并行 spawn 多个 sub-agent 处理大任务,小任务走结构化函数调用。在 Oolong-Synthetic(199 样本、13 个上下文 bucket、最高 4M tokens)上的对照实验显示:固定 GPT-5 backbone 时,RAH 把 Codex coding-agent 基线从 71.75% 拉到 81.36%(+9.6 pp),增益来自 harness 而非模型本身;换用 Claude Sonnet 4.5 backbone,同一套设计冲到 89.77%。这个数字戳中了一个行业心照不宣的事实:模型权重决定上限,harness 编排决定多接近上限。RLMs 是"思考的递归",RAH 是"做事的递归";两者合一,才是 production-grade 长程工作的完整形态。对正在卷 Coding Agent 的国内团队(智谱 GLM-Coding、阿里 Qwen-Coder、华为 CodeArts)而言,RAH 提供的不是新训练 trick,而是"用一个 GPT-5/Claude 级模型直接拿到 80%+ 长上下文准确率"的工程蓝图:别再让模型自己啃 4M tokens,让它写段代码,然后并发派发。