Sequential Attention：Google将Transformer注意力从O(n²)降至O(n)的新型架构

Google Research于2026年2月发布了一项重要注意力机制优化——Sequential Attention，将标准Transformer Attention的O(n²)计算复杂度降至O(n)，在部分场景下实现60%的计算量降低，同时保持模型精度。标准Transformer的Attention机制自2017年提出以来，一直是LLM的核心，但O(n²)的序列长度计算复杂度成为长上下文场景的性能瓶颈——每个Token需要与序列中所有其他Token计算相关性，导致长序列推理成本极高。Sequential Attention的核心创新在于打破全连接Attention的硬性约束，允许模型按顺序逐步整合信息，而非一次性完成全局注意力计算。这不是对Attention的近似替代，而是对注意力计算图的结构性重构。 Google团队在2022年理论论文基础上，经过数年工程化研发，于2026年正式发布实际应用成果。这意味着该技术已达到生产级可用水平，在长上下文场景和资源受限的端侧部署中具有重要应用前景。目前该技术正在向开源模型集成，预计2026年中期将成为主流模型标配。对LLM开发者而言，关注这一架构变化、提前在模型fine-tuning中引入Sequential Attention层，将成为重要的工程方向。Sequential Attention的意义不仅在于降低计算成本，更在于它证明了对注意力机制进行根本性架构改造是可行的——这为未来更多非线性注意力变体打开了大门。