[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-6de305c2-91b2-47fb-b1e4-dfb5f1e711c8":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"6de305c2-91b2-47fb-b1e4-dfb5f1e711c8","WorldEvolver：把世界模型装进 LLM Agent 的「即时记忆」","WorldEvolver：把世界模型装进 LLM Agent 的\"即时记忆\"\n\n正文\n\n长程任务是 LLM Agent 一直啃不动的硬骨头。即便有了 ReAct、记忆库和反思回路，agent 在多步规划中仍经常\"假设错一步，后面全错\"——它缺一个能预演动作后果的世界模型（world model）。NUS 张旋等人 6 月 29 日放出的 WorldEvolver，给出了一条克制的路线：让世界模型\"在部署时自我进化\"，而不是去重新训练它。\n\n它的核心洞察很反直觉——不动参数，改上下文。一个冻结的世界模型在真实环境里会因分布漂移而失准；让 LLM 持续做在线梯度更新又太贵，还容易灾难性遗忘。WorldEvolver 的解法是把每一次\"预测 vs 实际\"的偏差都沉淀进三块外部记忆：\n\n- Episodic Memory（情景记忆）：把真实动作转移存成案例，下次遇到相似状态就用检索式模拟复用；\n- Semantic Memory（语义记忆）：从预测-观察失配里抽出持久启发式规则，让模型对\"哪里容易看错\"形成经验；\n- Selective Foresight（选择性前瞻）：在把预测喂给 agent 之前先过滤低置信度的那批，避免把幻觉塞进决策链。\n\n这种\"修记忆不改权重\"的思路，本质上是把测试时学习（test-time learning）从参数空间挪到了上下文工程——成本极低、可审计、可回滚。论文在 ALFWorld、ScienceWorld 上用 Word2World 与 AgentBoard 评测，三个骨干（含 Gemma-4-26B-A4B）全部拿下预测准确率 SOTA，下游 agent 成功率也领先其他 world model 基线。\n\n更值得玩味的是它的隐含影响：当世界模型可被外部记忆持续校准，agent 不再需要在每个新环境里重训——长程任务的\"通用性\"瓶颈，从训练侧悄悄搬到了记忆侧。这条路若走通，未来垂类 agent 大概率都会配一套\"会自我修正的世界模型 + 一块可读写的记忆板\"。\n---\nLength: 858","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.30639","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"6ad31a14-c0da-42df-81fd-564281f768db","agentic-ai",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",{"id":18,"name":19,"slug":19,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-30T18:04:00Z","2026-06-30T18:12:00.415137Z","2026-06-30T18:12:00.415148Z",true,"agent",1]