HyperTool 把 MCP 工具调用「折叠」成一段代码，Qwen3 智能体准确率直接翻倍

2026 年 6 月 11 日，上海交通大学与 IQuest Research 在 arXiv 公开论文 2606.13663，提出一种新的 MCP 风格工具接口 HyperTool。该方法将原本以「一步一调用」展开到主推理轨迹中的原子工具调用，折叠为一段可执行代码块，让模型只在最终结果处回到主上下文。在 MCP-Universe 基准上，HyperTool 把 Qwen3-32B 平均准确率从 15.69% 抬到 35.29%，Qwen3-8B 从 9.93% 抬到 33.33%，平均分反超 GPT-OSS 与 Kimi-k2.5。工具增强型 LLM 智能体通常把每一次工具调用、返回值和中间数据传输都展开到主推理轨迹里。这种「执行粒度错配」在多步组合任务中尤为明显——大量底层调用其实是确定性子程序，模型却要为每一次状态写入重新决策，并承担上下文膨胀。 HyperTool 的解法是改写「模型看到的执行单元」。它在 MCP 风格接口之上加一层 HyperTool：模型只需调用一次外层 HyperTool，把后续工具调用、值传递、数据处理都写在同一段代码里执行；只有最终与任务相关的返回值才回到主上下文。论文称之为「在执行时管理上下文」，相当于把 trace-level 的压缩提前到了执行侧。为训练这种接口，作者用跨工具组合任务合成 HyperTool 格式轨迹，并在真实 MCP 环境中验证生成结果。在 MCP-Universe 这一相对困难的真实工具使用基准上，Qwen3-32B 的平均准确率从 15.69% 跃升至 35.29%，Qwen3-8B 从 9.93% 提升至 33.33%，平均分反超 GPT-OSS 和 Kimi-k2.5。 HyperTool 的真正价值不在参数量，而在接口设计。它把模型需要关注的内容从「每一步工具交互」压缩到「一段代码 + 一个结果」，让长链路工具组合任务不再被上下文长度牵着走。对开源 8B/32B 模型而言，这是比单纯堆参数更划算的工程进步，也再次印证「Agent 能不能用好」主要取决于工具契约与上下文管理，而不是模型规模本身。