APPO：把 Agent RL 的分支点找准，LLM 智能体训练的细粒度新思路

APPO 这个工作我看到的第一反应是：终于有人把"该在哪儿分支"和"该奖励谁"这两件事拆开研究了。Agentic RL 过去半年进步很快，但主流方法基本还在用"工具调用边界"或"固定工作流"作为信用分配的颗粒度，这其实相当粗。论文的关键观察很犀利：作者通过 pilot 分析发现，influential decision points 实际上分散在整个生成序列里，而不是集中在 tool call 附近；与此同时，单看 token entropy 也无法可靠反映某个位置对最终结果的影响。换句话说，"在工具调用处切一刀"这种朴素的 branch 策略，以及"高熵位置就是关键决策"这种直觉，两件事都不成立。基于这个观察，APPO 提出了两个关键设计：其一是 Branching Score，把 token uncertainty 与 policy-induced likelihood gains 结合来挑选分支点，过滤掉那些熵高但实际无意义的位置；其二是 procedure-level advantage scaling，把 branched rollout 之间的 credit 分配做得更细致。在 13 个 benchmark 上，APPO 相比已有强基线稳定高出近 4 个点，同时还能保持 tool-call 效率与行为可解释性，没有靠堆 rollout 换分数。值得一提的是，APPO 是中科大与阿里合作的工作，代码已开源 (github.com/AMAP-ML/APPO)。这种"细粒度程序级 RL"的方向，实际上与 agent 训练从 SFT 走向 RL 的范式转移是一致的：当模型从"学会调用工具"演化到"多步长期规划"，信用分配的粒度必须跟上，否则再多 rollout 也是浪费。我个人预期这套方法会成为后续 agentic RL 工作的标配基线之一，也值得所有做 Agent 训练的同学认真对照。