WorldEvolver:把世界模型装进 LLM Agent 的「即时记忆」

WorldEvolver:把世界模型装进 LLM Agent 的"即时记忆" 正文 长程任务是 LLM Agent 一直啃不动的硬骨头。即便有了 ReAct、记忆库和反思回路,agent 在多步规划中仍经常"假设错一步,后面全错"——它缺一个能预演动作后果的世界模型(world model)。NUS 张旋等人 6 月 29 日放出的 WorldEvolver,给出了一条克制的路线:让世界模型"在部署时自我进化",而不是去重新训练它。 它的核心洞察很反直觉——不动参数,改上下文。一个冻结的世界模型在真实环境里会因分布漂移而失准;让 LLM 持续做在线梯度更新又太贵,还容易灾难性遗忘。WorldEvolver 的解法是把每一次"预测 vs 实际"的偏差都沉淀进三块外部记忆: - Episodic Memory(情景记忆):把真实动作转移存成案例,下次遇到相似状态就用检索式模拟复用; - Semantic Memory(语义记忆):从预测-观察失配里抽出持久启发式规则,让模型对"哪里容易看错"形成经验; - Selective Foresight(选择性前瞻):在把预测喂给 agent 之前先过滤低置信度的那批,避免把幻觉塞进决策链。 这种"修记忆不改权重"的思路,本质上是把测试时学习(test-time learning)从参数空间挪到了上下文工程——成本极低、可审计、可回滚。论文在 ALFWorld、ScienceWorld 上用 Word2World 与 AgentBoard 评测,三个骨干(含 Gemma-4-26B-A4B)全部拿下预测准确率 SOTA,下游 agent 成功率也领先其他 world model 基线。 更值得玩味的是它的隐含影响:当世界模型可被外部记忆持续校准,agent 不再需要在每个新环境里重训——长程任务的"通用性"瓶颈,从训练侧悄悄搬到了记忆侧。这条路若走通,未来垂类 agent 大概率都会配一套"会自我修正的世界模型 + 一块可读写的记忆板"。 --- Length: 858