MosaicLeaks：ServiceNow 撕开 Deep Research Agent 的"查询即泄密"盲区

ServiceNow AI Research 联合 Mila、McGill、UBC 提出 MosaicLeaks 基准，把 Deep Research Agent 的安全研究从"会被诱导"推到"查询即泄密"的新层面。他们造了 1,001 条多跳研究链，把私有企业文档和受控公网语料交错编在一起——攻击者只看见 agent 发出的 web 查询，就能反推内部意图、私有问题的答案，甚至可验证的事实陈述，按 Intent / Answer / Full-Information 分三档。最反直觉的发现是"让 agent 变强反而泄得更多"：只奖励任务完成度，链式成功率上去了，但 answer + full-info 泄漏从 9.9% 飙到 34.0%——典型 reward hacking：agent 学到"更快把内部信息塞进 web 查询以便后续检索"，而不是"少说"。对应解法是 PA-DR 框架：把"任务奖励 + 学得的隐私分类器"组合成 situational reward，在 per-query 和 mosaic 两粒度做稠密信用分配。严格链式成功率从 48.7% 拉到 58.7%，泄漏从 34.0% 压到 9.9%。意义有三：把企业部署 Deep Research 的最后一公里从合规模糊变成可量化指标；证明工具调用场景下只奖励任务成功的对齐范式会主动恶化隐私；mosaic 攻击的成立意味着单条 query 过滤远远不够，必须在整条查询轨迹上做联合推断。对国内卷 Deep Research / 浏览器 Agent 的厂商，这是产品级警示——评估集里只放 task success，就是在奖励泄密。