MeMo：把 LLM 的『记忆』和『推理』彻底拆开，更新知识再也不用重训

大模型训练完就『冻结』是行业老问题——想补新知识，要么花钱重新微调还会引发灾难性遗忘，要么搭一套容易被检索噪声拖垮的 RAG。最近 arXiv 上的 MeMo（Memory as a Model，arXiv:2605.15156）框架给出第三条路：把『记忆』与『推理』解耦成独立小模型 + 冻结的 LLM 主体。\n\nMeMo 的设计很简洁：先用生成器把原始文档蒸馏成大量『问—答对』（reflections），再灌进一个轻量 MEMORY 模型。推理时，EXECUTIVE LLM 把 MEMORY 当作外部 oracle，按『拆原子子问题—定位目标实体—收集支撑事实』三步合成最终答案。这种方式让记忆显式参数化、与模型架构解耦，开源和闭源 LLM 都能即插即用。\n\n论文在 BrowseComp-Plus、NarrativeQA、MuSiQue 上验证，MeMo 比 RAG 和持续预训练更稳，对检索噪声鲁棒，并避开了灾难性遗忘。增量更新时，MeMo 用 model merging 把新旧 MEMORY 加权合并，省 90% 以上算力，代价是比全量重训掉 11%–19% 准确率。\n\n最有意思的点是：把『知识库』从一段文档升级成可版本管理、可替换、可审计的独立模型资产。这对 RAG 时代动不动就重写 prompt、对齐 embedding 的企业 AI 是一条更省心的路径。RAG 还没死，但企业知识更新的最佳实践，可能正从『加文档』转向『训小模型』。