LOCOS 把 LLM 可解释性的"写侧"补齐:用 OV circuit 投影定位非字面检索头

在长上下文 LLM 中,"理解上下文并换一种说法回答"远比"原样抄"更常见。传统 attention head 检测器只看 read-side —— 把 attended token 与生成 token 匹配度打分。但这恰恰漏掉了真正在做合成工作的 head:它们通过 OV circuit 的输出做"非字面改写",而 OV 输出无法被 attended token 匹配这一指标捕捉到。arxiv 2607.01002 提出的 LOCOS(Logit-Contribution Scoring) 第一次把这个 write-side 显式纳入视野。实现上,LOCOS 只需一次前向传播:把每个 head 的 OV-circuit 输出投影到 answer-token 的 unembedding 方向,再对比 needle 位置与 off-needle 位置的差异,得到 write-aware 重要性分数。在 Qwen3-8B 上,mean-ablating LOCOS 选出的 top 50 heads 直接把 NoLiMa 的 ROUGE-L 从 0.401 砸到 0.000,而最强 baseline 还保留 0.292;Qwen3、Gemma-3、OLMo-3.1 三个模型族上同样成立。更关键的是,LOCOS 圈出的 head 是 retrieval-specific:ablating 后,参数化召回(parametric recall) 与算术推理几乎不动,但同模型的 MuSiQue 从 0.55 跌到 0.08,BABI-Long 从 0.62 跌到 0.20 —— 这些都是非字面检索密集型任务。换句话说,LOCOS 不仅定位精确,还给出"功能性"语义。长期意义不止于可解释性本身。LLM 内部电路分析过去长期停留在"事后观察",LOCOS 这种"先评分、再用 ablation 反向验证"的范式,把它推到了"可被干预的工程对象"。对做 red-teaming、model diffing、训练诊断的研究员,这是少有的能在 8B 模型上几分钟跑完的工具 —— 也是 mechanistic interpretability 走向 product 化的一步台阶。