Supersede 把 LLM Agent 长会话的「事实过期」缺口做成可训练奖励：Qwen2.5-3B 上 GRPO 让准确率近翻倍

Supersede 是 Vedant Patel 在 arXiv 公开的一项针对长会话 LLM Agent 的诊断与训练工作，把事实过期从语言模型难解的现象变成了可在 verifiers/prime-rl 框架下训练的能力。论文先在 LongMemEval 的知识更新子集上做对照：把 Agent 完整上下文替换为有界自维护记忆后，连 gpt-5.4 这类前沿模型准确率也从 92% 掉到 77%（配对 McNemar p<0.005），且缺口不随模型规模缩小而消失——瓶颈在记忆维护，不是理解本身。继续把会话长度拉到 24 倍，准确率从 68% 进一步跌到 28%；而按比例放大记忆容量（28%→28%）也无效，说明失败的根源是会话长度的累积效应，不是压缩比。这些数据明确把长上下文 LLM Agent 答得准和记得对分成了两个独立的能力维度。基于这一诊断，作者把 Supersede 开源成 verifiers/prime-rl 上的 RL 环境：答对当前值得分，引用过时值扣分，从而把时间性事实保鲜能力直接变成可训练的奖励信号。在 Qwen2.5-3B 上做 GRPO 微调，held-out 真实会话上的超期更新准确率从 9.0% 提升到 16.7%，检查点曲线单调上升，政策本身在变好而不是 harness 在变好。这是第一个专门针对事实保鲜设计的可训练 RL 环境，也是少数在 Agent 长会话能力上同时给出诊断和训练证据的工作。