大模型训练完就『冻结』是行业老问题——想补新知识,要么花钱重新微调还会引发灾难性遗忘,要么搭一套容易被检索噪声拖垮的 RAG。最近 arXiv 上的 MeMo(Memory as a Model,arXiv:2605.15156)框架给出第三条路:把『记忆』与『推理』解耦成独立小模型 + 冻结的 LLM 主体。\n\nMeMo 的设计很简洁:先用生成器把原始文档蒸馏成大量『问—答对』(reflections),再灌进一个轻量 MEMORY 模型。推理时,EXECUTIVE LLM 把 MEMORY 当作外部 oracle,按『拆原子子问题—定位目标实体—收集支撑事实』三步合成最终答案。这种方式让记忆显式参数化、与模型架构解耦,开源和闭源 LLM 都能即插即用。\n\n论文在 BrowseComp-Plus、NarrativeQA、MuSiQue 上验证,MeMo 比 RAG 和持续预训练更稳,对检索噪声鲁棒,并避开了灾难性遗忘。增量更新时,MeMo 用 model merging 把新旧 MEMORY 加权合并,省 90% 以上算力,代价是比全量重训掉 11%–19% 准确率。\n\n最有意思的点是:把『知识库』从一段文档升级成可版本管理、可替换、可审计的独立模型资产。这对 RAG 时代动不动就重写 prompt、对齐 embedding 的企业 AI 是一条更省心的路径。RAG 还没死,但企业知识更新的最佳实践,可能正从『加文档』转向『训小模型』。