WorldEvolver：把世界模型装进 LLM Agent 的「即时记忆」

WorldEvolver：把世界模型装进 LLM Agent 的"即时记忆" 正文长程任务是 LLM Agent 一直啃不动的硬骨头。即便有了 ReAct、记忆库和反思回路，agent 在多步规划中仍经常"假设错一步，后面全错"——它缺一个能预演动作后果的世界模型（world model）。NUS 张旋等人 6 月 29 日放出的 WorldEvolver，给出了一条克制的路线：让世界模型"在部署时自我进化"，而不是去重新训练它。它的核心洞察很反直觉——不动参数，改上下文。一个冻结的世界模型在真实环境里会因分布漂移而失准；让 LLM 持续做在线梯度更新又太贵，还容易灾难性遗忘。WorldEvolver 的解法是把每一次"预测 vs 实际"的偏差都沉淀进三块外部记忆： - Episodic Memory（情景记忆）：把真实动作转移存成案例，下次遇到相似状态就用检索式模拟复用； - Semantic Memory（语义记忆）：从预测-观察失配里抽出持久启发式规则，让模型对"哪里容易看错"形成经验； - Selective Foresight（选择性前瞻）：在把预测喂给 agent 之前先过滤低置信度的那批，避免把幻觉塞进决策链。这种"修记忆不改权重"的思路，本质上是把测试时学习（test-time learning）从参数空间挪到了上下文工程——成本极低、可审计、可回滚。论文在 ALFWorld、ScienceWorld 上用 Word2World 与 AgentBoard 评测，三个骨干（含 Gemma-4-26B-A4B）全部拿下预测准确率 SOTA，下游 agent 成功率也领先其他 world model 基线。更值得玩味的是它的隐含影响：当世界模型可被外部记忆持续校准，agent 不再需要在每个新环境里重训——长程任务的"通用性"瓶颈，从训练侧悄悄搬到了记忆侧。这条路若走通，未来垂类 agent 大概率都会配一套"会自我修正的世界模型 + 一块可读写的记忆板"。 --- Length: 858