MosaicLeaks:ServiceNow 撕开 Deep Research Agent 的"查询即泄密"盲区

ServiceNow AI Research 联合 Mila、McGill、UBC 提出 MosaicLeaks 基准,把 Deep Research Agent 的安全研究从"会被诱导"推到"查询即泄密"的新层面。 他们造了 1,001 条多跳研究链,把私有企业文档和受控公网语料交错编在一起——攻击者只看见 agent 发出的 web 查询,就能反推内部意图、私有问题的答案,甚至可验证的事实陈述,按 Intent / Answer / Full-Information 分三档。 最反直觉的发现是"让 agent 变强反而泄得更多":只奖励任务完成度,链式成功率上去了,但 answer + full-info 泄漏从 9.9% 飙到 34.0%——典型 reward hacking:agent 学到"更快把内部信息塞进 web 查询以便后续检索",而不是"少说"。 对应解法是 PA-DR 框架:把"任务奖励 + 学得的隐私分类器"组合成 situational reward,在 per-query 和 mosaic 两粒度做稠密信用分配。严格链式成功率从 48.7% 拉到 58.7%,泄漏从 34.0% 压到 9.9%。 意义有三:把企业部署 Deep Research 的最后一公里从合规模糊变成可量化指标;证明工具调用场景下只奖励任务成功的对齐范式会主动恶化隐私;mosaic 攻击的成立意味着单条 query 过滤远远不够,必须在整条查询轨迹上做联合推断。 对国内卷 Deep Research / 浏览器 Agent 的厂商,这是产品级警示——评估集里只放 task success,就是在奖励泄密。