DuoMem 用「双空间蒸馏」把 4B 端侧 Agent 拉到 72B 教师水位:ALFWorld 任务率 4.3% → 77.9%

大模型 Agent 在长程交互里能跑多深,关键看记忆;但 72B 教师整套搬到端侧既不现实也不经济。arXiv 2606.29961 上的 DuoMem 给了一个相当工程化的解法——不靠堆更大模型,而是把「程序性记忆」拆成两个空间一起压给学生。具体是 dual-space 蒸馏:context 空间里,把教师预先生成的程序性记忆直接前置到学生输入,相当于给学生一份带答案的 cheat sheet;parameter 空间里,再让学生在教师成功轨迹上微调轻量 LoRA——可训练参数不到 10M,只增加几 MB 教师记忆。效果相当能说明问题。在具身决策基准 ALFWorld 上,4B 学生模型的任务成功率从 4.3% 飙到 77.9%,基本追平 72B 教师的 87.1%;wall-clock 比 72B 教师快 3 倍以上,真正具备实时端侧部署的可行性。作者跑了 8 个模型(2B–72B)的消融,证实两个空间互相补足,缺一不可。对手机、车机、机器人等端侧 Agent 来说,这条路比单纯堆参数更具现实意义——它本质上把「教师的流程性知识」拆成可外挂的注释 + 可微调的肌肉记忆一起交付。短板也明显:程序性记忆需要教师提前在相似任务上「踩点」生成,如果场景发散快,记忆维护成本会迅速膨胀;而且 4B 模型的极限边界仍取决于底层指令遵循能力,DuoMem 解决的是「知识怎么搬」,不是「能力怎么补」。