StreamMA：多Agent推理的流式通信革命，精度提升7.3个百分点加速26倍

传统多Agent推理系统采用先生成后传递范式，导致端到端延迟随链路深度线性增长。StreamMA另辟蹊径，通过流式通信协议将每个推理步骤即时转发给下游Agent，实现流水线式并行推理。有趣的是，这种流式设计不仅降低延迟，还能提升推理质量——因为多步推理的质量分布不均匀，早期步骤往往比后期更可靠，让Agent基于可靠早期输出形成自己的推理轨迹，可以有效防止错误累积。 StreamMA的核心贡献在于三个层面。其一是理论框架：提出了Stream/Serial/Single协议的首次联合闭式分析，推导出效果排序、加速比上限和成本比公式，能精确预测三种协议各自最优的场景。其二是step-level scaling law：证明增加每Agent的推理步数能同时提升精度和效率，这是一个独立于模型规模和Agent数量的新Scaling维度。其三是工程实现：在NVIDIA H100 GPU上，流式通信相比串行在链式/树状/图状三种拓扑下均显著优于基线，A=S=64时实测加速达26.9倍。实验覆盖8个推理基准，涵盖数学、科学和代码任务，使用Claude Opus 4.6和GPT-5.4两个前沿模型。结果显示StreamMA平均精度提升7.3个百分点，AIME 2025上从67.5%升至92.5%，HMMT 2026上最高提升22.4个百分点。成本收益同样可观：使用Claude Opus 4.6定价，StreamMA×4击败Serial×16，成本减半且精度更高。这一研究对工程实践有重要启发。多Agent协作中边想边传确实优于想完再传；推理链的后期步骤可靠性下降是真实存在的系统性偏差。step-level scaling law为系统设计者提供了新的调参维度——与其堆叠更多Agent，不如让每个Agent想得更细。当前主流多Agent框架多采用串行传递范式，StreamMA从理论和实验双重验证了流式通信的优势，有望成为下一代Agent系统的通信基础。