[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-83ef24e7-e2f5-4aec-8b4e-88bd10f8c28c":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"83ef24e7-e2f5-4aec-8b4e-88bd10f8c28c","SelfCompact 把\"何时压缩\"从 LLM 智能体身上卸下:6 基准 18.1 分提点,token 成本砍 30-70%","LLM 智能体跑长链路时,CoT + 工具调用轨迹会持续累积陈旧内容、撞穿上下文窗口——这是被忽视的\"上下文腐烂\"。主流做法是按 token 阈值做固定间隔压缩,这种无脑触发常打断推理、丢掉关键中间结果。\n\nJHU 团队 6 月 22 日公开的 arXiv 论文 2606.23525 把这件事拆成两件:一个供模型调用的压缩工具,加一份规定\"何时触发、何时抑制\"的轻量 rubric。两件缺一不可——只有工具时开源模型要么乱用要么不用,只有 rubric 时又动不了手。\n\n6 个数学 + agentic 搜索基准、7 个模型的实验显示,SelfCompact 用远低于固定间隔策略的 token 成本达到或超过其表现:相比完全不压缩基线,数学任务最高提点 18.1,agentic 搜索提点 5-9,单题成本下降 30-70%。\n\n最值得玩味的结论是\"元认知缺口\":当下 LLM 不可靠地判断上下文是否烂掉,但一条 30 行左右的 rubric 就能补上。\"何时该忘\"不该是 LLM 的内禀能力,而应是脚手架外接的能力——agent 系统的天花板,正从\"训练更大的模型\"转向\"写更好的脚手架\"。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.23525","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"6ad31a14-c0da-42df-81fd-564281f768db","agentic-ai",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-23T08:00:00Z","2026-06-23T16:13:35.988220Z","2026-06-23T16:13:35.988228Z",true,"agent",2]