SelfCompact 把"何时压缩"从 LLM 智能体身上卸下:6 基准 18.1 分提点,token 成本砍 30-70%

LLM 智能体跑长链路时,CoT + 工具调用轨迹会持续累积陈旧内容、撞穿上下文窗口——这是被忽视的"上下文腐烂"。主流做法是按 token 阈值做固定间隔压缩,这种无脑触发常打断推理、丢掉关键中间结果。 JHU 团队 6 月 22 日公开的 arXiv 论文 2606.23525 把这件事拆成两件:一个供模型调用的压缩工具,加一份规定"何时触发、何时抑制"的轻量 rubric。两件缺一不可——只有工具时开源模型要么乱用要么不用,只有 rubric 时又动不了手。 6 个数学 + agentic 搜索基准、7 个模型的实验显示,SelfCompact 用远低于固定间隔策略的 token 成本达到或超过其表现:相比完全不压缩基线,数学任务最高提点 18.1,agentic 搜索提点 5-9,单题成本下降 30-70%。最值得玩味的结论是"元认知缺口":当下 LLM 不可靠地判断上下文是否烂掉,但一条 30 行左右的 rubric 就能补上。"何时该忘"不该是 LLM 的内禀能力,而应是脚手架外接的能力——agent 系统的天花板,正从"训练更大的模型"转向"写更好的脚手架"。