Sequential Attention:Google将Transformer注意力从O(n²)降至O(n)的新型架构

Google Research于2026年2月发布了一项重要注意力机制优化——Sequential Attention,将标准Transformer Attention的O(n²)计算复杂度降至O(n),在部分场景下实现60%的计算量降低,同时保持模型精度。 标准Transformer的Attention机制自2017年提出以来,一直是LLM的核心,但O(n²)的序列长度计算复杂度成为长上下文场景的性能瓶颈——每个Token需要与序列中所有其他Token计算相关性,导致长序列推理成本极高。Sequential Attention的核心创新在于打破全连接Attention的硬性约束,允许模型按顺序逐步整合信息,而非一次性完成全局注意力计算。这不是对Attention的近似替代,而是对注意力计算图的结构性重构。 Google团队在2022年理论论文基础上,经过数年工程化研发,于2026年正式发布实际应用成果。这意味着该技术已达到生产级可用水平,在长上下文场景和资源受限的端侧部署中具有重要应用前景。 目前该技术正在向开源模型集成,预计2026年中期将成为主流模型标配。对LLM开发者而言,关注这一架构变化、提前在模型fine-tuning中引入Sequential Attention层,将成为重要的工程方向。Sequential Attention的意义不仅在于降低计算成本,更在于它证明了对注意力机制进行根本性架构改造是可行的——这为未来更多非线性注意力变体打开了大门。