注意力架构收敛：3:1混合比成为2026年大模型新范式

2026年第一季度，两家独立团队——阿里巴巴Qwen团队和Moonshot AI（月之暗面）——在没有相互参考的情况下，得出了一致的工程结论：在线性注意力与全注意力之间，3:1的混合比例是最优解。 Qwen3.5于2026年2月发布，采用Gated DeltaNet线性注意力机制，以3层线性注意力搭配1层标准注意力的混合结构运行；几乎同期，Kimi Linear基于自主研发的KDA（Kimi Delta Attention）机制，实现了完全相同的3:1混合配比。这不是巧合，而是架构层面的深度收敛。为什么这个比例如此重要？传统Transformer的全注意力计算复杂度为O(n²)，上下文翻倍，计算量增加四倍。线性注意力将复杂度降至O(n)，但纯线性方案在表达能力上存在损失。3:1混合在效率和能力之间找到了平衡点：KV Cache内存降低75%，百万token上下文下吞吐量提升6倍，同时保留足够的全注意力层来维持模型的核心表达能力。这场架构收敛背后有一个被低估的推动者——NVIDIA Research。Gated DeltaNet最初由NVIDIA团队在ICLR 2025上提出，本质上是在Mamba2状态空间模型基础上引入门控机制，从而更高效地利用有限状态记忆。如今Qwen、Kimi等头部团队均基于这一架构进行研发，NVIDIA实际上掌握着这场范式转换的底层定义权。对行业而言，混合注意力比成为标准，意味着长上下文推理的成本结构将发生根本性变化。百万token上下文的工程可行性大幅提升，Ring Attention等分布式方案与混合注意力的结合，可能让超长上下文从技术展示走向工业级应用。下一步的真正问题是：这套架构能否在保持效率优势的同时，进一步缩小与纯全注意力模型在复杂推理任务上的差距。