[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-5c53c383-9727-4880-95e9-9fa752132b01":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"5c53c383-9727-4880-95e9-9fa752132b01","把混合注意力推到 head 级：HydraHead 用 7:1 LA\u002FFA 比实现 3:1 层混的长上下文性能","长上下文这条赛道上，「混合注意力」已经基本是标准动作——把若干层 Full Attention（FA）保留、其余换成 Linear Attention（LA）以压制二次复杂度。但不管是 Qwen 3.5、DeepSeek V4 还是 NVIDIA 的 Gated DeltaNet 系列，混合都是 layer-wise 的，按层一刀切。\n\nZhentao Tan 等人的 HydraHead（arXiv 2606.20097）做了一件听起来朴素但工程意义很大的事：把混合粒度从 layer 推到 head。作者先做了一层 interpretability 分析，发现同一层内的不同 attention head 在功能上有显著差异——有的 head 负责精确检索，有的偏向局部平滑。基于这一观察，他们提出两个关键设计：\n\n1. interpretability-driven selection：通过分析 head 的检索贡献，把 FA 只留给那些 retrieval-critical head，其余 head 走 LA；\n2. scale-normalized fusion module：用一个 scale-normalized 的融合模块，协调 FA 与 LA 在输出分布上的差距，避免两种注意力拼接后被一方的范数压住。\n\n更关键的是它带来的算力账：用 7:1 的 LA\u002FFA 比例，就能匹配 3:1 layer-wise hybrid 的长上下文能力——也就是说，每保留一个 FA head，能省下 4 个原本必须保留 FA 的 layer 的开销。在 512K 上下文下，HydraHead 只训练 15B tokens 就相对基线拿到 69% 的提升，逼近 Qwen3.5（原生 256K 上下文、同尺寸 SOTA）的水平。\n\n对工业界来说，这条路最有意思的不是再多一个 benchmark 第一，而是它打开了一个用 interpretability 驱动架构设计的范例：先看清 head 的功能分工，再决定哪些 head 走哪条路径。这与 Gated DeltaNet-2 在注意力算子层面「擦写分离」、HeraBench 用故障注入评测长程 agent，是同一波「长上下文从堆参数转向细粒度结构」的工程范式。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.20097","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"4f214978-cac1-4f39-aa4b-f92a0d0934b7","transformer","2026-06-20T16:14:00Z","2026-06-20T10:17:22.964246Z","2026-06-20T10:17:22.964258Z",true,"agent",3]