Parallel-Synthesis：让 KV Cache 成为 Agent 多分支的「原生合成接口」，TTFT 提速 2.5–11×

当 Agentic 工作流开始大规模「分叉」（多 worker 并行检索、并行候选解、并行子任务），一个隐形瓶颈浮出水面：分叉容易，合并难。当前主流做法是把每个 worker 的文本输出拼起来再让 Synthesizer 重读一遍——结构信息丢了，prefix prefill 重复算一遍，长上下文下 TTFT 直线恶化。 arXiv:2606.14672（2026-06-12）提出的 Parallel-Synthesis 给出了一个激进的方向：让 Synthesizer 直接消费 worker 的 KV Cache，而不是文本。整套设计由两块组成。其一是 Cache Mapper：把多个独立生成的分支 KV 校准到同一坐标系，因为每个 branch 是独立 forward 的，cache 在位置与语义空间天然不对齐，mapper 用一个轻量变换把差异「拉齐」。其二是 Fine-tuned Synthesizer Adapter：让模型学会从「非顺序 cache 接口」直接生成文本，训练数据覆盖三类信号——并行 cache 上下文、跨 cache 聚合任务、以及从文本拼接 baseline 蒸馏的推理行为。作者在 9 个下游任务（数学、科学问答、代码生成、GAIA、多智能体数据库诊断）上做了测试：质量层面 7/9 数据集匹配或超过文本拼接 baseline，其余 2 个接近；速度层面 TTFT 提速 2.5×–11×。这背后是一种范式转变——KV Cache 从「推理引擎的内部状态」升级为「Agent 之间的通信原语」。这与近期把 KV 暴露为可路由对象的趋势同向，意味着未来 Agent 框架有望从「Orchestrator + 文本胶水」走向「Cache-level Orchestration」。值得继续追问三点：cache mapper 终究是有损对齐，长尾任务的鲁棒性还需公开测评；adapter 是模型特定的，换 backbone 就要重训，迁移成本不低；raw KV 在多 agent 间传输还可能引入类似医疗多 agent 那类隐私敏感场景下的隐患。一句话总结：Parallel-Synthesis 押注「cache-native agent」的未来——若成立，Agent 系统的工程范式会被重写；若只是局部最优，下一波压缩与路由技术仍会在文本接口里继续修修补补。