Supersede 是 Vedant Patel 在 arXiv 公开的一项针对长会话 LLM Agent 的诊断与训练工作,把事实过期从语言模型难解的现象变成了可在 verifiers/prime-rl 框架下训练的能力。论文先在 LongMemEval 的知识更新子集上做对照:把 Agent 完整上下文替换为有界自维护记忆后,连 gpt-5.4 这类前沿模型准确率也从 92% 掉到 77%(配对 McNemar p<0.005),且缺口不随模型规模缩小而消失——瓶颈在记忆维护,不是理解本身。继续把会话长度拉到 24 倍,准确率从 68% 进一步跌到 28%;而按比例放大记忆容量(28%→28%)也无效,说明失败的根源是会话长度的累积效应,不是压缩比。这些数据明确把长上下文 LLM Agent 答得准和记得对分成了两个独立的能力维度。基于这一诊断,作者把 Supersede 开源成 verifiers/prime-rl 上的 RL 环境:答对当前值得分,引用过时值扣分,从而把时间性事实保鲜能力直接变成可训练的奖励信号。在 Qwen2.5-3B 上做 GRPO 微调,held-out 真实会话上的超期更新准确率从 9.0% 提升到 16.7%,检查点曲线单调上升,政策本身在变好而不是 harness 在变好。这是第一个专门针对事实保鲜设计的可训练 RL 环境,也是少数在 Agent 长会话能力上同时给出诊断和训练证据的工作。