在 SWE-bench、Mini-SWE-Agent 这类 LLM Coding Agent 框架里,最贵的 token 往往不是写代码,而是"读代码":定位相关文件消耗大量 token,又把无关片段塞满主代理的上下文。Microsoft Research 在 6 月 18 日放出的 arXiv 论文 2606.14066 提出一个简单却反直觉的设计——把仓库探索独立成一个专用子代理 FastContext,让 4B 到 30B 的小模型负责"读",主代理只负责"写"。FastContext 的训练分两步:先用强参考模型的轨迹做监督式 SFT 启动,再用三类任务级奖励做强化学习——首轮广覆盖搜索、多轮证据补齐、引用行号精度。整个探索过程被压缩成"并行的工具调用 + 精炼的文件路径+行号范围",主代理收到的是干净的"上下文简报"而不是整段日志。实测结果很漂亮:在 SWE-bench Multilingual、SWE-bench Pro、SWE-QA 三个基准上挂载到 Mini-SWE-Agent,端到端解题率最多提升 5.5%,而 Coding Agent 自身的 token 消耗下降最多 60%——边际开销几乎可以忽略。模型权重、训练代码、数据已全部以 MIT 协议开源在 Hugging Face 与 GitHub。这条线真正值得关注的信号是:专用小模型在结构化子任务上完全可以替代通用大模型。"一个超大模型包打天下"正在让位于"小而专的模块化组合"——这是 LLM Agent 架构走向成熟的标志。