QK-Restore：给混合注意力LLM装上"长程记忆保险丝"，CoT微调后256K检索从65.4%拉回76.4%

Xinyu Zhou等人在arXiv:2606.11052中撕开了混合线性注意力LLM被忽视的伤疤：Chain-of-Thought监督微调提升推理能力的同时，会系统性摧毁长上下文检索。论文以HypeNet、Jet-Nemotron为样本。HypeNet-9B在NIAH-S2@256K上从67.2%暴跌至9.4%——近乎失忆。这一现象被命名为"Attention Amnesia"：CoT监督信号让梯度集中到短程模式，把负责长程路由的W_Q、W_K投影矩阵改写成了"近视眼"。修复方案意外简洁。QK-Restore是训练后回滚：只把SFT前checkpoint的W_Q、W_K权重"焊"回去，其余参数保留CoT调优。HypeNet-5B的S3@256K从65.4%拉到76.4%，推理得分不退化。论文还给出Procrustes变体，用正交约束在"保路由"和"适应推理"间找更平滑的折中。工程价值很清楚：长上下文与推理能力在SFT阶段传统上近乎零和，QK-Restore提供了几乎零成本的双修路径。比起重训一套，精修两行矩阵——这种克制正是当下大模型研究中越来越稀罕的清醒。