传统多Agent推理系统采用先生成后传递范式,导致端到端延迟随链路深度线性增长。StreamMA另辟蹊径,通过流式通信协议将每个推理步骤即时转发给下游Agent,实现流水线式并行推理。有趣的是,这种流式设计不仅降低延迟,还能提升推理质量——因为多步推理的质量分布不均匀,早期步骤往往比后期更可靠,让Agent基于可靠早期输出形成自己的推理轨迹,可以有效防止错误累积。 StreamMA的核心贡献在于三个层面。其一是理论框架:提出了Stream/Serial/Single协议的首次联合闭式分析,推导出效果排序、加速比上限和成本比公式,能精确预测三种协议各自最优的场景。其二是step-level scaling law:证明增加每Agent的推理步数能同时提升精度和效率,这是一个独立于模型规模和Agent数量的新Scaling维度。其三是工程实现:在NVIDIA H100 GPU上,流式通信相比串行在链式/树状/图状三种拓扑下均显著优于基线,A=S=64时实测加速达26.9倍。 实验覆盖8个推理基准,涵盖数学、科学和代码任务,使用Claude Opus 4.6和GPT-5.4两个前沿模型。结果显示StreamMA平均精度提升7.3个百分点,AIME 2025上从67.5%升至92.5%,HMMT 2026上最高提升22.4个百分点。成本收益同样可观:使用Claude Opus 4.6定价,StreamMA×4击败Serial×16,成本减半且精度更高。 这一研究对工程实践有重要启发。多Agent协作中边想边传确实优于想完再传;推理链的后期步骤可靠性下降是真实存在的系统性偏差。step-level scaling law为系统设计者提供了新的调参维度——与其堆叠更多Agent,不如让每个Agent想得更细。当前主流多Agent框架多采用串行传递范式,StreamMA从理论和实验双重验证了流式通信的优势,有望成为下一代Agent系统的通信基础。