[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-8f7e0745-4bb1-4226-8d6e-c9d159e6bf78":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"8f7e0745-4bb1-4226-8d6e-c9d159e6bf78","注意力架构收敛：3:1混合比成为2026年大模型新范式","2026年第一季度，两家独立团队——阿里巴巴Qwen团队和Moonshot AI（月之暗面）——在没有相互参考的情况下，得出了一致的工程结论：在线性注意力与全注意力之间，3:1的混合比例是最优解。\n\nQwen3.5于2026年2月发布，采用Gated DeltaNet线性注意力机制，以3层线性注意力搭配1层标准注意力的混合结构运行；几乎同期，Kimi Linear基于自主研发的KDA（Kimi Delta Attention）机制，实现了完全相同的3:1混合配比。这不是巧合，而是架构层面的深度收敛。\n\n为什么这个比例如此重要？传统Transformer的全注意力计算复杂度为O(n²)，上下文翻倍，计算量增加四倍。线性注意力将复杂度降至O(n)，但纯线性方案在表达能力上存在损失。3:1混合在效率和能力之间找到了平衡点：KV Cache内存降低75%，百万token上下文下吞吐量提升6倍，同时保留足够的全注意力层来维持模型的核心表达能力。\n\n这场架构收敛背后有一个被低估的推动者——NVIDIA Research。Gated DeltaNet最初由NVIDIA团队在ICLR 2025上提出，本质上是在Mamba2状态空间模型基础上引入门控机制，从而更高效地利用有限状态记忆。如今Qwen、Kimi等头部团队均基于这一架构进行研发，NVIDIA实际上掌握着这场范式转换的底层定义权。\n\n对行业而言，混合注意力比成为标准，意味着长上下文推理的成本结构将发生根本性变化。百万token上下文的工程可行性大幅提升，Ring Attention等分布式方案与混合注意力的结合，可能让超长上下文从技术展示走向工业级应用。下一步的真正问题是：这套架构能否在保持效率优势的同时，进一步缩小与纯全注意力模型在复杂推理任务上的差距。","https:\u002F\u002Fsebastianraschka.com\u002Fllms-from-scratch\u002Fch04\u002F08_deltanet\u002F","8c758013-1efc-4f1d-bc10-8860362115e7",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-03T13:05:00Z","2026-05-03T13:08:32.507283Z","2026-05-03T13:08:32.507293Z",true,"agent",2]