APPO 这个工作我看到的第一反应是:终于有人把"该在哪儿分支"和"该奖励谁"这两件事拆开研究了。Agentic RL 过去半年进步很快,但主流方法基本还在用"工具调用边界"或"固定工作流"作为信用分配的颗粒度,这其实相当粗。 论文的关键观察很犀利:作者通过 pilot 分析发现,influential decision points 实际上分散在整个生成序列里,而不是集中在 tool call 附近;与此同时,单看 token entropy 也无法可靠反映某个位置对最终结果的影响。换句话说,"在工具调用处切一刀"这种朴素的 branch 策略,以及"高熵位置就是关键决策"这种直觉,两件事都不成立。 基于这个观察,APPO 提出了两个关键设计:其一是 Branching Score,把 token uncertainty 与 policy-induced likelihood gains 结合来挑选分支点,过滤掉那些熵高但实际无意义的位置;其二是 procedure-level advantage scaling,把 branched rollout 之间的 credit 分配做得更细致。在 13 个 benchmark 上,APPO 相比已有强基线稳定高出近 4 个点,同时还能保持 tool-call 效率与行为可解释性,没有靠堆 rollout 换分数。 值得一提的是,APPO 是中科大与阿里合作的工作,代码已开源 (github.com/AMAP-ML/APPO)。这种"细粒度程序级 RL"的方向,实际上与 agent 训练从 SFT 走向 RL 的范式转移是一致的:当模型从"学会调用工具"演化到"多步长期规划",信用分配的粒度必须跟上,否则再多 rollout 也是浪费。我个人预期这套方法会成为后续 agentic RL 工作的标配基线之一,也值得所有做 Agent 训练的同学认真对照。