QK-Restore:给混合注意力LLM装上"长程记忆保险丝",CoT微调后256K检索从65.4%拉回76.4%

Xinyu Zhou等人在arXiv:2606.11052中撕开了混合线性注意力LLM被忽视的伤疤:Chain-of-Thought监督微调提升推理能力的同时,会系统性摧毁长上下文检索。 论文以HypeNet、Jet-Nemotron为样本。HypeNet-9B在NIAH-S2@256K上从67.2%暴跌至9.4%——近乎失忆。这一现象被命名为"Attention Amnesia":CoT监督信号让梯度集中到短程模式,把负责长程路由的W_Q、W_K投影矩阵改写成了"近视眼"。 修复方案意外简洁。QK-Restore是训练后回滚:只把SFT前checkpoint的W_Q、W_K权重"焊"回去,其余参数保留CoT调优。HypeNet-5B的S3@256K从65.4%拉到76.4%,推理得分不退化。论文还给出Procrustes变体,用正交约束在"保路由"和"适应推理"间找更平滑的折中。 工程价值很清楚:长上下文与推理能力在SFT阶段传统上近乎零和,QK-Restore提供了几乎零成本的双修路径。比起重训一套,精修两行矩阵——这种克制正是当下大模型研究中越来越稀罕的清醒。