Tool-Use RL 为什么会突然崩盘？arXiv 2606.26027 戳破 Agent 训练的'概率尖峰'陷阱

arXiv 2606.26027 揭示了一个让所有押注 Agent 的团队都该警惕的现象：多步骤工具调用场景下，纯 RL 微调 LLM 经常会突然崩溃——表现断崖式下跌，工具调用结构直接崩坏。但论文最反直觉的发现是，这并非模型能力的丧失，而是某些控制 token 的概率被异常放大，把原本的推理结果'挤'了出去。换句话说，你以为模型忘了怎么用工具，其实它只是在某个特定 token 上卡死了。代码已开源 Tool-RL-Box。论文系统比较了多种监督信号：off-policy 监督、错误示例监督、hint 引导等，最终的'半解'是 SFT 与 RL 交错训练——稳定性显著提升，但代价是格式/内容 OOD 评测上的能力退化。这意味着当下的工具调用 RL 并没有真正的银弹：要么牺牲 OOD 鲁棒性换稳定，要么继续在概率尖峰问题上打补丁。这也解释了为什么 2026 上半年各家 Agent benchmark 排行榜上，同一个 base 模型在精心监督信号下和粗暴 RL 下能差出 30+ 分。Agent 训练从'RL 一切'转向'SFT+RL 混合工程'，是接下来半年的主旋律。