PARTREP 把 prompt 复读做成"选择题":用 NLL 选难 token,Decoder-only LLM 的 KV 占用压到 59%

Decoder-only LLM 的因果注意力天然造成一种信息流不对称——靠前的 token grounding 弱,靠后的 token grounding 强。最朴素的补救办法是"把 prompt 整体复制一份贴到末尾"(prompt repetition),让原本靠前的 token 获得一次"晚到"的机会。问题是代价太重:它让 KV cache 翻倍,prefill 注意力变成 4 倍,在长上下文场景里基本不可用。 7 月 2 日挂在 arXiv 的 PARTREP (2607.01792) 走了一条更精打细算的路:不是"复不复读"二选一,而是只复读"难 token"。判定"难"的标准是 token-wise 负对数似然(NLL)——模型自己预测越不准的 token,在前段越难从上下文里被还原,放在末尾复读一次的边际收益就越大。真正让它工程化的是打分本身。为了不在选 token 之前再跑一遍完整 forward,作者训练了一个轻量级 gate,用前几层的 hidden state 就能预测高 NLL token,选择动作发生在 prefill 中段的 early exit。论文在 8 个 benchmark(MMLU、GSM8K、RULER 等)上、跨 3 个模型族(Qwen2.5、Llama3.2、Gemma4)做了验证:用 59.4% 的 KV cache + 79% 的 prefill FLOPs,就能拿到接近 full repetition 的增益。 PARTREP 不是新架构,也不是新训练范式,而是把"在已经能跑的系统上插一个聪明判断"做到了工业可用的程度。它和 self-consistency、speculative decoding 同属"借模型自身不确定性做决策"一脉——差别在于 PARTREP 完全不动训练,落地路径最短。真正的取舍在于:这个 learned gate 要为每个目标模型重新训,跨模型的可移植性是下一篇工程论文该回答的问题。