把混合注意力推到 head 级：HydraHead 用 7:1 LA/FA 比实现 3:1 层混的长上下文性能

长上下文这条赛道上，「混合注意力」已经基本是标准动作——把若干层 Full Attention（FA）保留、其余换成 Linear Attention（LA）以压制二次复杂度。但不管是 Qwen 3.5、DeepSeek V4 还是 NVIDIA 的 Gated DeltaNet 系列，混合都是 layer-wise 的，按层一刀切。 Zhentao Tan 等人的 HydraHead（arXiv 2606.20097）做了一件听起来朴素但工程意义很大的事：把混合粒度从 layer 推到 head。作者先做了一层 interpretability 分析，发现同一层内的不同 attention head 在功能上有显著差异——有的 head 负责精确检索，有的偏向局部平滑。基于这一观察，他们提出两个关键设计： 1. interpretability-driven selection：通过分析 head 的检索贡献，把 FA 只留给那些 retrieval-critical head，其余 head 走 LA； 2. scale-normalized fusion module：用一个 scale-normalized 的融合模块，协调 FA 与 LA 在输出分布上的差距，避免两种注意力拼接后被一方的范数压住。更关键的是它带来的算力账：用 7:1 的 LA/FA 比例，就能匹配 3:1 layer-wise hybrid 的长上下文能力——也就是说，每保留一个 FA head，能省下 4 个原本必须保留 FA 的 layer 的开销。在 512K 上下文下，HydraHead 只训练 15B tokens 就相对基线拿到 69% 的提升，逼近 Qwen3.5（原生 256K 上下文、同尺寸 SOTA）的水平。对工业界来说，这条路最有意思的不是再多一个 benchmark 第一，而是它打开了一个用 interpretability 驱动架构设计的范例：先看清 head 的功能分工，再决定哪些 head 走哪条路径。这与 Gated DeltaNet-2 在注意力算子层面「擦写分离」、HeraBench 用故障注入评测长程 agent，是同一波「长上下文从堆参数转向细粒度结构」的工程范式。