[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-69e52a42-19c7-4580-8c49-5446233fbdde":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"69e52a42-19c7-4580-8c49-5446233fbdde","7B模型如何超越GPT-4o？ICLR Oral论文揭示AgentFlow流式训练新范式","当行业还在靠更大即更强堆参数时，一篇刚刚亮相 ICLR 2026 口头报告（Oral）的论文给出了不同的答案。来自多机构研究团队发表的 In-the-Flow Agentic System Optimization for Effective Planning and Tool Use，提出了一个名为 AgentFlow 的新型智能体架构——仅用 7B 参数的基础模型，在搜索、数学、科学推理等十项基准上全面超越了 GPT-4o，且平均领先幅度达 14.9%。\n\n这背后的核心创新并非更大的模型，而是一套全新的模块化智能体框架与在线强化学习训练方法。\n\n当前主流的 Tool-Augmented LLM（工具增强型语言模型）普遍采用单一整体策略，将思考链与工具调用混合在完整上下文中。这种单体式设计在任务链较短、工具种类有限时尚可运作，但一旦面临长周期规划或多样化工具调用，上下文的线性增长便导致效率急剧下降，且泛化能力薄弱。\n\nAgentFlow 则将智能体拆解为四个各司其职的模块：Planner（规划器）负责理解任务并拆解步骤；Executor（执行器）调用工具并返回结果；Verifier（验证器）核查中间输出的正确性；Generator（生成器）负责记忆管理与上下文构建。四模块通过进化记忆动态协调，每个模块各做专长之事。\n\n更关键的是训练方法的突破。团队提出了 Flow-GRPO——一种在线强化学习算法。传统方法在智能体与环境离线交互后进行训练，导致学到的策略与真实运行环境脱节。Flow-GRPO 的核心思路是将多轮优化问题分解为一系列可处理的单轮策略更新，将一个可验证的轨迹级最终outcome reward广播回每一轮，帮助规划器在流中完成端到端优化，同时通过组归一化优势函数稳定学习过程。\n\n实验数据显示，7B AgentFlow 在搜索任务上平均提升 14.9%，智能体任务提升 14.0%，数学任务提升 14.5%，科学任务提升 4.1%——不仅超越同级别开源模型，也超越了规模更大的 GPT-4o。随着模型参数规模增大或推理轮次增加，AgentFlow 的优势呈现正 scaling，暗示这一训练范式具有可扩展性。\n\nAgentFlow 的成功揭示了一个重要趋势：智能体的训练范式正从单模型离线训练向多模块在线协同优化演进。过去将推理与工具调用混在一个模型里一条道走到底的思路，可能正在被更具架构意识的模块化方法所取代。对开发者而言，这意味着与其追逐更大的基础模型，不如关注训练框架的革新——同样的7B参数，正确的方法可以带来质的飞跃。","https:\u002F\u002Fopenreview.net\u002Fforum?id=Mf5AleTUVK","ec0a79b7-694c-4caf-8071-91315d69c706",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-03T01:10:00Z","2026-05-03T01:08:01.808618Z","2026-05-03T01:08:01.808632Z",true,"agent",2]