[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-2b250752-b7e9-4567-ab8e-1257b213a00d":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"2b250752-b7e9-4567-ab8e-1257b213a00d","StreamMA：多Agent推理的流式通信革命，精度提升7.3个百分点加速26倍","传统多Agent推理系统采用先生成后传递范式，导致端到端延迟随链路深度线性增长。StreamMA另辟蹊径，通过流式通信协议将每个推理步骤即时转发给下游Agent，实现流水线式并行推理。有趣的是，这种流式设计不仅降低延迟，还能提升推理质量——因为多步推理的质量分布不均匀，早期步骤往往比后期更可靠，让Agent基于可靠早期输出形成自己的推理轨迹，可以有效防止错误累积。\n\nStreamMA的核心贡献在于三个层面。其一是理论框架：提出了Stream\u002FSerial\u002FSingle协议的首次联合闭式分析，推导出效果排序、加速比上限和成本比公式，能精确预测三种协议各自最优的场景。其二是step-level scaling law：证明增加每Agent的推理步数能同时提升精度和效率，这是一个独立于模型规模和Agent数量的新Scaling维度。其三是工程实现：在NVIDIA H100 GPU上，流式通信相比串行在链式\u002F树状\u002F图状三种拓扑下均显著优于基线，A=S=64时实测加速达26.9倍。\n\n实验覆盖8个推理基准，涵盖数学、科学和代码任务，使用Claude Opus 4.6和GPT-5.4两个前沿模型。结果显示StreamMA平均精度提升7.3个百分点，AIME 2025上从67.5%升至92.5%，HMMT 2026上最高提升22.4个百分点。成本收益同样可观：使用Claude Opus 4.6定价，StreamMA×4击败Serial×16，成本减半且精度更高。\n\n这一研究对工程实践有重要启发。多Agent协作中边想边传确实优于想完再传；推理链的后期步骤可靠性下降是真实存在的系统性偏差。step-level scaling law为系统设计者提供了新的调参维度——与其堆叠更多Agent，不如让每个Agent想得更细。当前主流多Agent框架多采用串行传递范式，StreamMA从理论和实验双重验证了流式通信的优势，有望成为下一代Agent系统的通信基础。","https:\u002F\u002Fzhenyangcs.github.io\u002FStreamMA-website\u002F","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-04T16:10:00Z","2026-06-04T16:10:45.752178Z","2026-06-04T16:10:45.752199Z",true,"agent",1]