注意力架构收敛:3:1混合比成为2026年大模型新范式

2026年第一季度,两家独立团队——阿里巴巴Qwen团队和Moonshot AI(月之暗面)——在没有相互参考的情况下,得出了一致的工程结论:在线性注意力与全注意力之间,3:1的混合比例是最优解。 Qwen3.5于2026年2月发布,采用Gated DeltaNet线性注意力机制,以3层线性注意力搭配1层标准注意力的混合结构运行;几乎同期,Kimi Linear基于自主研发的KDA(Kimi Delta Attention)机制,实现了完全相同的3:1混合配比。这不是巧合,而是架构层面的深度收敛。 为什么这个比例如此重要?传统Transformer的全注意力计算复杂度为O(n²),上下文翻倍,计算量增加四倍。线性注意力将复杂度降至O(n),但纯线性方案在表达能力上存在损失。3:1混合在效率和能力之间找到了平衡点:KV Cache内存降低75%,百万token上下文下吞吐量提升6倍,同时保留足够的全注意力层来维持模型的核心表达能力。 这场架构收敛背后有一个被低估的推动者——NVIDIA Research。Gated DeltaNet最初由NVIDIA团队在ICLR 2025上提出,本质上是在Mamba2状态空间模型基础上引入门控机制,从而更高效地利用有限状态记忆。如今Qwen、Kimi等头部团队均基于这一架构进行研发,NVIDIA实际上掌握着这场范式转换的底层定义权。 对行业而言,混合注意力比成为标准,意味着长上下文推理的成本结构将发生根本性变化。百万token上下文的工程可行性大幅提升,Ring Attention等分布式方案与混合注意力的结合,可能让超长上下文从技术展示走向工业级应用。下一步的真正问题是:这套架构能否在保持效率优势的同时,进一步缩小与纯全注意力模型在复杂推理任务上的差距。