把混合注意力推到 head 级:HydraHead 用 7:1 LA/FA 比实现 3:1 层混的长上下文性能

长上下文这条赛道上,「混合注意力」已经基本是标准动作——把若干层 Full Attention(FA)保留、其余换成 Linear Attention(LA)以压制二次复杂度。但不管是 Qwen 3.5、DeepSeek V4 还是 NVIDIA 的 Gated DeltaNet 系列,混合都是 layer-wise 的,按层一刀切。 Zhentao Tan 等人的 HydraHead(arXiv 2606.20097)做了一件听起来朴素但工程意义很大的事:把混合粒度从 layer 推到 head。作者先做了一层 interpretability 分析,发现同一层内的不同 attention head 在功能上有显著差异——有的 head 负责精确检索,有的偏向局部平滑。基于这一观察,他们提出两个关键设计: 1. interpretability-driven selection:通过分析 head 的检索贡献,把 FA 只留给那些 retrieval-critical head,其余 head 走 LA; 2. scale-normalized fusion module:用一个 scale-normalized 的融合模块,协调 FA 与 LA 在输出分布上的差距,避免两种注意力拼接后被一方的范数压住。 更关键的是它带来的算力账:用 7:1 的 LA/FA 比例,就能匹配 3:1 layer-wise hybrid 的长上下文能力——也就是说,每保留一个 FA head,能省下 4 个原本必须保留 FA 的 layer 的开销。在 512K 上下文下,HydraHead 只训练 15B tokens 就相对基线拿到 69% 的提升,逼近 Qwen3.5(原生 256K 上下文、同尺寸 SOTA)的水平。 对工业界来说,这条路最有意思的不是再多一个 benchmark 第一,而是它打开了一个用 interpretability 驱动架构设计的范例:先看清 head 的功能分工,再决定哪些 head 走哪条路径。这与 Gated DeltaNet-2 在注意力算子层面「擦写分离」、HeraBench 用故障注入评测长程 agent,是同一波「长上下文从堆参数转向细粒度结构」的工程范式。