2026 年 6 月 11 日,上海交通大学与 IQuest Research 在 arXiv 公开论文 2606.13663,提出一种新的 MCP 风格工具接口 HyperTool。该方法将原本以「一步一调用」展开到主推理轨迹中的原子工具调用,折叠为一段可执行代码块,让模型只在最终结果处回到主上下文。在 MCP-Universe 基准上,HyperTool 把 Qwen3-32B 平均准确率从 15.69% 抬到 35.29%,Qwen3-8B 从 9.93% 抬到 33.33%,平均分反超 GPT-OSS 与 Kimi-k2.5。 工具增强型 LLM 智能体通常把每一次工具调用、返回值和中间数据传输都展开到主推理轨迹里。这种「执行粒度错配」在多步组合任务中尤为明显——大量底层调用其实是确定性子程序,模型却要为每一次状态写入重新决策,并承担上下文膨胀。 HyperTool 的解法是改写「模型看到的执行单元」。它在 MCP 风格接口之上加一层 HyperTool:模型只需调用一次外层 HyperTool,把后续工具调用、值传递、数据处理都写在同一段代码里执行;只有最终与任务相关的返回值才回到主上下文。论文称之为「在执行时管理上下文」,相当于把 trace-level 的压缩提前到了执行侧。 为训练这种接口,作者用跨工具组合任务合成 HyperTool 格式轨迹,并在真实 MCP 环境中验证生成结果。在 MCP-Universe 这一相对困难的真实工具使用基准上,Qwen3-32B 的平均准确率从 15.69% 跃升至 35.29%,Qwen3-8B 从 9.93% 提升至 33.33%,平均分反超 GPT-OSS 和 Kimi-k2.5。 HyperTool 的真正价值不在参数量,而在接口设计。它把模型需要关注的内容从「每一步工具交互」压缩到「一段代码 + 一个结果」,让长链路工具组合任务不再被上下文长度牵着走。对开源 8B/32B 模型而言,这是比单纯堆参数更划算的工程进步,也再次印证「Agent 能不能用好」主要取决于工具契约与上下文管理,而不是模型规模本身。