SubQ 突破 Transformer 注意力瓶颈：1200 万 token 上下文背后的架构革命

# SubQ 突破 Transformer 注意力瓶颈：1200 万 token 上下文背后的架构革命 Transformer 的二次复杂度一直是 LLM 扩展长上下文的阿喀琉斯之踵——上下文越长，计算量以 O(n²) 膨胀，厂商不得不通过 RAG、分块、提示工程来绕开这一天花板。但这个限制可能即将成为历史。 5 月 5 日，初创公司 Subquadratic 正式走出 stealth，发布了全球首个全亚二次（Fully Subquadratic）架构 LLM——**SubQ 1M-Preview**。与传统 Transformer 不同，SubQ 的计算量随上下文长度线性增长，而非平方增长。这一架构重设计使得在 128K token 场景下，SubQ 的稀疏注意力机制比 FlashAttention 快 **52 倍**，同时降低 63% 的算力消耗。最引人注目的是上下文窗口规模。SubQ 研究模型在 **1200 万 token** 上下文下进行了测试并经第三方验证——这是当前任何其他前沿模型都无法达到的范围。在 RULER 128K 基准上，SubQ 1M-Preview 得分 95%，略高于 Claude Opus 4.6 的 94.8%。在 MRCR v2（评估跨上下文多信息检索与推理能力）中，SubQ 研究模型得分 83，第三方验证 65.9，大幅领先 Claude Opus 4.7（32.2）和 GPT-5.5（74）。更重要的是，SWE-Bench Verified 得分 81.8%，与 DeepSeek V4-Pro（80%）和 Opus 4.6（80.8%）处于同一水平，证明亚二次架构并未以牺牲模型能力为代价。 Subquadratic 融资 2900 万美元种子轮，投资方包括 Anthropic、OpenAI 的早期投资人。团队成员来自 Meta、Google、Oxford、ByteDance、Adobe 和 Cambridge。当前模型层迭代放缓，架构层的竞争正在升温。如果 SubQ 在更大规模验证中保持上述表现，"上下文即护城河"的逻辑将被彻底改写——真正能处理整个代码库、完整知识库或长程交互历史的 AI 应用，正在从不可能变为可能。标签：llm, efficiency, inference, new-model, transformer