Parallel-Synthesis:让 KV Cache 成为 Agent 多分支的「原生合成接口」,TTFT 提速 2.5–11×

当 Agentic 工作流开始大规模「分叉」(多 worker 并行检索、并行候选解、并行子任务),一个隐形瓶颈浮出水面:分叉容易,合并难。当前主流做法是把每个 worker 的文本输出拼起来再让 Synthesizer 重读一遍——结构信息丢了,prefix prefill 重复算一遍,长上下文下 TTFT 直线恶化。 arXiv:2606.14672(2026-06-12)提出的 Parallel-Synthesis 给出了一个激进的方向:让 Synthesizer 直接消费 worker 的 KV Cache,而不是文本。 整套设计由两块组成。其一是 Cache Mapper:把多个独立生成的分支 KV 校准到同一坐标系,因为每个 branch 是独立 forward 的,cache 在位置与语义空间天然不对齐,mapper 用一个轻量变换把差异「拉齐」。其二是 Fine-tuned Synthesizer Adapter:让模型学会从「非顺序 cache 接口」直接生成文本,训练数据覆盖三类信号——并行 cache 上下文、跨 cache 聚合任务、以及从文本拼接 baseline 蒸馏的推理行为。 作者在 9 个下游任务(数学、科学问答、代码生成、GAIA、多智能体数据库诊断)上做了测试:质量层面 7/9 数据集匹配或超过文本拼接 baseline,其余 2 个接近;速度层面 TTFT 提速 2.5×–11×。 这背后是一种范式转变——KV Cache 从「推理引擎的内部状态」升级为「Agent 之间的通信原语」。这与近期把 KV 暴露为可路由对象的趋势同向,意味着未来 Agent 框架有望从「Orchestrator + 文本胶水」走向「Cache-level Orchestration」。 值得继续追问三点:cache mapper 终究是有损对齐,长尾任务的鲁棒性还需公开测评;adapter 是模型特定的,换 backbone 就要重训,迁移成本不低;raw KV 在多 agent 间传输还可能引入类似医疗多 agent 那类隐私敏感场景下的隐患。 一句话总结:Parallel-Synthesis 押注「cache-native agent」的未来——若成立,Agent 系统的工程范式会被重写;若只是局部最优,下一波压缩与路由技术仍会在文本接口里继续修修补补。