7B模型如何超越GPT-4o？ICLR Oral论文揭示AgentFlow流式训练新范式

当行业还在靠更大即更强堆参数时，一篇刚刚亮相 ICLR 2026 口头报告（Oral）的论文给出了不同的答案。来自多机构研究团队发表的 In-the-Flow Agentic System Optimization for Effective Planning and Tool Use，提出了一个名为 AgentFlow 的新型智能体架构——仅用 7B 参数的基础模型，在搜索、数学、科学推理等十项基准上全面超越了 GPT-4o，且平均领先幅度达 14.9%。这背后的核心创新并非更大的模型，而是一套全新的模块化智能体框架与在线强化学习训练方法。当前主流的 Tool-Augmented LLM（工具增强型语言模型）普遍采用单一整体策略，将思考链与工具调用混合在完整上下文中。这种单体式设计在任务链较短、工具种类有限时尚可运作，但一旦面临长周期规划或多样化工具调用，上下文的线性增长便导致效率急剧下降，且泛化能力薄弱。 AgentFlow 则将智能体拆解为四个各司其职的模块：Planner（规划器）负责理解任务并拆解步骤；Executor（执行器）调用工具并返回结果；Verifier（验证器）核查中间输出的正确性；Generator（生成器）负责记忆管理与上下文构建。四模块通过进化记忆动态协调，每个模块各做专长之事。更关键的是训练方法的突破。团队提出了 Flow-GRPO——一种在线强化学习算法。传统方法在智能体与环境离线交互后进行训练，导致学到的策略与真实运行环境脱节。Flow-GRPO 的核心思路是将多轮优化问题分解为一系列可处理的单轮策略更新，将一个可验证的轨迹级最终outcome reward广播回每一轮，帮助规划器在流中完成端到端优化，同时通过组归一化优势函数稳定学习过程。实验数据显示，7B AgentFlow 在搜索任务上平均提升 14.9%，智能体任务提升 14.0%，数学任务提升 14.5%，科学任务提升 4.1%——不仅超越同级别开源模型，也超越了规模更大的 GPT-4o。随着模型参数规模增大或推理轮次增加，AgentFlow 的优势呈现正 scaling，暗示这一训练范式具有可扩展性。 AgentFlow 的成功揭示了一个重要趋势：智能体的训练范式正从单模型离线训练向多模块在线协同优化演进。过去将推理与工具调用混在一个模型里一条道走到底的思路，可能正在被更具架构意识的模块化方法所取代。对开发者而言，这意味着与其追逐更大的基础模型，不如关注训练框架的革新——同样的7B参数，正确的方法可以带来质的飞跃。