FastContext 4B-30B 子代理：把 60% 推理 Token 留给"找代码"，Coding Agent 提速 5.5%

在 SWE-bench、Mini-SWE-Agent 这类 LLM Coding Agent 框架里，最贵的 token 往往不是写代码，而是"读代码"：定位相关文件消耗大量 token，又把无关片段塞满主代理的上下文。Microsoft Research 在 6 月 18 日放出的 arXiv 论文 2606.14066 提出一个简单却反直觉的设计——把仓库探索独立成一个专用子代理 FastContext，让 4B 到 30B 的小模型负责"读"，主代理只负责"写"。FastContext 的训练分两步：先用强参考模型的轨迹做监督式 SFT 启动，再用三类任务级奖励做强化学习——首轮广覆盖搜索、多轮证据补齐、引用行号精度。整个探索过程被压缩成"并行的工具调用 + 精炼的文件路径+行号范围"，主代理收到的是干净的"上下文简报"而不是整段日志。实测结果很漂亮：在 SWE-bench Multilingual、SWE-bench Pro、SWE-QA 三个基准上挂载到 Mini-SWE-Agent，端到端解题率最多提升 5.5%，而 Coding Agent 自身的 token 消耗下降最多 60%——边际开销几乎可以忽略。模型权重、训练代码、数据已全部以 MIT 协议开源在 Hugging Face 与 GitHub。这条线真正值得关注的信号是：专用小模型在结构化子任务上完全可以替代通用大模型。"一个超大模型包打天下"正在让位于"小而专的模块化组合"——这是 LLM Agent 架构走向成熟的标志。