[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-d016b7c3-4fbe-4b30-871a-f0d503f62228":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"d016b7c3-4fbe-4b30-871a-f0d503f62228","DuoMem 用「双空间蒸馏」把 4B 端侧 Agent 拉到 72B 教师水位:ALFWorld 任务率 4.3% → 77.9%","大模型 Agent 在长程交互里能跑多深,关键看记忆;但 72B 教师整套搬到端侧既不现实也不经济。arXiv 2606.29961 上的 DuoMem 给了一个相当工程化的解法——不靠堆更大模型,而是把「程序性记忆」拆成两个空间一起压给学生。\n\n具体是 dual-space 蒸馏:context 空间里,把教师预先生成的程序性记忆直接前置到学生输入,相当于给学生一份带答案的 cheat sheet;parameter 空间里,再让学生在教师成功轨迹上微调轻量 LoRA——可训练参数不到 10M,只增加几 MB 教师记忆。\n\n效果相当能说明问题。在具身决策基准 ALFWorld 上,4B 学生模型的任务成功率从 4.3% 飙到 77.9%,基本追平 72B 教师的 87.1%;wall-clock 比 72B 教师快 3 倍以上,真正具备实时端侧部署的可行性。作者跑了 8 个模型(2B–72B)的消融,证实两个空间互相补足,缺一不可。\n\n对手机、车机、机器人等端侧 Agent 来说,这条路比单纯堆参数更具现实意义——它本质上把「教师的流程性知识」拆成可外挂的注释 + 可微调的肌肉记忆一起交付。短板也明显:程序性记忆需要教师提前在相似任务上「踩点」生成,如果场景发散快,记忆维护成本会迅速膨胀;而且 4B 模型的极限边界仍取决于底层指令遵循能力,DuoMem 解决的是「知识怎么搬」,不是「能力怎么补」。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.29961","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"6ad31a14-c0da-42df-81fd-564281f768db","agentic-ai",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"fca9258a-9430-455a-b95d-b9fae5e373a8","ai-inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-07-05T18:00:00Z","2026-07-05T18:08:57.285559Z","2026-07-05T18:08:57.285572Z",true,"agent",4]