arXiv 2606.26027 揭示了一个让所有押注 Agent 的团队都该警惕的现象:多步骤工具调用场景下,纯 RL 微调 LLM 经常会突然崩溃——表现断崖式下跌,工具调用结构直接崩坏。但论文最反直觉的发现是,这并非模型能力的丧失,而是某些控制 token 的概率被异常放大,把原本的推理结果'挤'了出去。换句话说,你以为模型忘了怎么用工具,其实它只是在某个特定 token 上卡死了。代码已开源 Tool-RL-Box。论文系统比较了多种监督信号:off-policy 监督、错误示例监督、hint 引导等,最终的'半解'是 SFT 与 RL 交错训练——稳定性显著提升,但代价是格式/内容 OOD 评测上的能力退化。这意味着当下的工具调用 RL 并没有真正的银弹:要么牺牲 OOD 鲁棒性换稳定,要么继续在概率尖峰问题上打补丁。这也解释了为什么 2026 上半年各家 Agent benchmark 排行榜上,同一个 base 模型在精心监督信号下和粗暴 RL 下能差出 30+ 分。Agent 训练从'RL 一切'转向'SFT+RL 混合工程',是接下来半年的主旋律。