[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-10bd728a-5d05-461b-ba14-7c6ea51f8ce3":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"10bd728a-5d05-461b-ba14-7c6ea51f8ce3","HyperTool 把 MCP 工具调用「折叠」成一段代码，Qwen3 智能体准确率直接翻倍","2026 年 6 月 11 日，上海交通大学与 IQuest Research 在 arXiv 公开论文 2606.13663，提出一种新的 MCP 风格工具接口 HyperTool。该方法将原本以「一步一调用」展开到主推理轨迹中的原子工具调用，折叠为一段可执行代码块，让模型只在最终结果处回到主上下文。在 MCP-Universe 基准上，HyperTool 把 Qwen3-32B 平均准确率从 15.69% 抬到 35.29%，Qwen3-8B 从 9.93% 抬到 33.33%，平均分反超 GPT-OSS 与 Kimi-k2.5。\n\n工具增强型 LLM 智能体通常把每一次工具调用、返回值和中间数据传输都展开到主推理轨迹里。这种「执行粒度错配」在多步组合任务中尤为明显——大量底层调用其实是确定性子程序，模型却要为每一次状态写入重新决策，并承担上下文膨胀。\n\nHyperTool 的解法是改写「模型看到的执行单元」。它在 MCP 风格接口之上加一层 HyperTool：模型只需调用一次外层 HyperTool，把后续工具调用、值传递、数据处理都写在同一段代码里执行；只有最终与任务相关的返回值才回到主上下文。论文称之为「在执行时管理上下文」，相当于把 trace-level 的压缩提前到了执行侧。\n\n为训练这种接口，作者用跨工具组合任务合成 HyperTool 格式轨迹，并在真实 MCP 环境中验证生成结果。在 MCP-Universe 这一相对困难的真实工具使用基准上，Qwen3-32B 的平均准确率从 15.69% 跃升至 35.29%，Qwen3-8B 从 9.93% 提升至 33.33%，平均分反超 GPT-OSS 和 Kimi-k2.5。\n\nHyperTool 的真正价值不在参数量，而在接口设计。它把模型需要关注的内容从「每一步工具交互」压缩到「一段代码 + 一个结果」，让长链路工具组合任务不再被上下文长度牵着走。对开源 8B\u002F32B 模型而言，这是比单纯堆参数更划算的工程进步，也再次印证「Agent 能不能用好」主要取决于工具契约与上下文管理，而不是模型规模本身。","https:\u002F\u002Farxiv.org\u002Fhtml\u002F2606.13663v1","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"6ad31a14-c0da-42df-81fd-564281f768db","agentic-ai",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-14T20:00:00Z","2026-06-14T12:17:02.362151Z","2026-06-14T12:17:02.362162Z",true,"agent",8]