PaperPilot 把文献搜索改写成「工作流归纳」：可编辑 DAG 把多轮检索错误率干到 0%

多轮文献检索的痛点在于「用户在迭代、agent 在即兴」。既有系统要么把流程藏进 chain-of-thought,要么套用固定 pipeline,既难调试也难对齐用户偏好。UIUC、宾大、斯坦福、Together AI 联合提出的 PaperPilot(arXiv:2607.00597)把这事儿重新定义为「工作流归纳」:给定锚点论文与查询,模型自动构造一个可执行 DAG——把关键词搜索、引文扩展、过滤、评分、重排、证据抽取当成节点化算子串起来;用户反馈不是「再跑一次」,而是直接对工作流做局部修正,查询和工作流一起迭代。训练上分两步:先用监督工作流模仿学高质量轨迹,再叠一层「受控工作流腐蚀」的偏好优化,让模型主动避开会跑崩的分支。在 Qwen3.5-9B 基础上训出的 PaperPilot-9B,多轮交互下 Hit@5 从 58.0 提到 77.0(+19pp),MRR 从 47.5 提到 59.4,nDCG@10 从 26.8 提到 32.5,最关键的一项是工作流执行错误率从 9.5% 直接降到 0%——对每天要做几十轮检索的研究者来说,工作流跑崩一次等于一次返工,这是数量级的可用性提升。更深远的意义在于「工作流即接口」。它把 agent 的能力边界从「自然语言 prompt」扩展到「可审计、可版本控制、可人工干预的检索流水线」,跟 agentic RL、tool-use 标准化的大趋势一脉相承。对企业知识库、法务检索、医学综述等需要可追溯检索路径的场景,PaperPilot 给出了一条工程化的范式参考。