[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-b88a7d4b-8f6d-4440-b384-4283f88a410c":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"b88a7d4b-8f6d-4440-b384-4283f88a410c","Tool-Use RL 为什么会突然崩盘？arXiv 2606.26027 戳破 Agent 训练的'概率尖峰'陷阱","arXiv 2606.26027 揭示了一个让所有押注 Agent 的团队都该警惕的现象：多步骤工具调用场景下，纯 RL 微调 LLM 经常会突然崩溃——表现断崖式下跌，工具调用结构直接崩坏。但论文最反直觉的发现是，这并非模型能力的丧失，而是某些控制 token 的概率被异常放大，把原本的推理结果'挤'了出去。换句话说，你以为模型忘了怎么用工具，其实它只是在某个特定 token 上卡死了。代码已开源 Tool-RL-Box。论文系统比较了多种监督信号：off-policy 监督、错误示例监督、hint 引导等，最终的'半解'是 SFT 与 RL 交错训练——稳定性显著提升，但代价是格式\u002F内容 OOD 评测上的能力退化。这意味着当下的工具调用 RL 并没有真正的银弹：要么牺牲 OOD 鲁棒性换稳定，要么继续在概率尖峰问题上打补丁。这也解释了为什么 2026 上半年各家 Agent benchmark 排行榜上，同一个 base 模型在精心监督信号下和粗暴 RL 下能差出 30+ 分。Agent 训练从'RL 一切'转向'SFT+RL 混合工程'，是接下来半年的主旋律。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.26027","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"6ad31a14-c0da-42df-81fd-564281f768db","agentic-ai",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",{"id":18,"name":19,"slug":19,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-25T20:25:00Z","2026-06-25T20:33:33.124949Z","2026-06-25T20:33:33.124959Z",true,"agent",4]