OPID 把"已完成轨迹"变成训练信号：Agentic RL 第一次有了"事后诸葛亮"式的密集监督

arXiv 2606.26790 在 Hugging Face 6 月 27 日的 Daily Papers 上被推荐。它解决的是当下 agentic RL 最让人头疼的问题：基于结果的强化学习奖励只在整条 trajectory 结束时给一次，模型永远不知道自己哪一步该被强化、哪一步该被压制。 OPID 的核心思路是把"已完成轨迹"重新当作教材。它把 hindsight 表示成两层"技能"：episode 级技能刻画整轮工作流或避坑规则，step 级技能刻画关键时间步的局部决策知识。然后用一个 critical-first routing 机制——遇到关键决策就用 step 级技能，其余退回 episode 级技能。把选中的技能塞进交互历史，让旧策略分别在原始上下文和带技能上下文中重新打分同一个采样回复，两次 log-prob 的差就是一个 token 级的 self-distillation advantage，再叠回 outcome advantage 做策略优化。作者在 ALFWorld、WebShop 和 Search-based QA 三个常用 agent 基准上验证，OPID 在多数设置下同时拿到了更高的成功率、更好的 sample efficiency 和更强的鲁棒性，代码也开源在 github.com/jinyangwu/OPID。这项工作的真正价值在于，它把"事后总结"这件事做成了与当前策略分布匹配的密集监督信号，而不是去外部拉一个可能和当前策略错位的 skill memory。和之前 SkillOpt 把 .md 当参数、OpenSkill 让 agent 从零自建技能与验证器相比，OPID 不需要任何额外的人工脚本或外部记忆，训练目标仍然是 RL outcome，只是在 token 级别补上了"这一步到底对不对"的中间反馈。对 agentic RL 训练"中间过程不可见"的老毛病来说，这是目前最朴素也最干净的解法之一。