# SubQ 突破 Transformer 注意力瓶颈:1200 万 token 上下文背后的架构革命 Transformer 的二次复杂度一直是 LLM 扩展长上下文的阿喀琉斯之踵——上下文越长,计算量以 O(n²) 膨胀,厂商不得不通过 RAG、分块、提示工程来绕开这一天花板。但这个限制可能即将成为历史。 5 月 5 日,初创公司 Subquadratic 正式走出 stealth,发布了全球首个全亚二次(Fully Subquadratic)架构 LLM——**SubQ 1M-Preview**。与传统 Transformer 不同,SubQ 的计算量随上下文长度线性增长,而非平方增长。这一架构重设计使得在 128K token 场景下,SubQ 的稀疏注意力机制比 FlashAttention 快 **52 倍**,同时降低 63% 的算力消耗。 最引人注目的是上下文窗口规模。SubQ 研究模型在 **1200 万 token** 上下文下进行了测试并经第三方验证——这是当前任何其他前沿模型都无法达到的范围。在 RULER 128K 基准上,SubQ 1M-Preview 得分 95%,略高于 Claude Opus 4.6 的 94.8%。在 MRCR v2(评估跨上下文多信息检索与推理能力)中,SubQ 研究模型得分 83,第三方验证 65.9,大幅领先 Claude Opus 4.7(32.2)和 GPT-5.5(74)。 更重要的是,SWE-Bench Verified 得分 81.8%,与 DeepSeek V4-Pro(80%)和 Opus 4.6(80.8%)处于同一水平,证明亚二次架构并未以牺牲模型能力为代价。 Subquadratic 融资 2900 万美元种子轮,投资方包括 Anthropic、OpenAI 的早期投资人。团队成员来自 Meta、Google、Oxford、ByteDance、Adobe 和 Cambridge。 当前模型层迭代放缓,架构层的竞争正在升温。如果 SubQ 在更大规模验证中保持上述表现,"上下文即护城河"的逻辑将被彻底改写——真正能处理整个代码库、完整知识库或长程交互历史的 AI 应用,正在从不可能变为可能。 标签:llm, efficiency, inference, new-model, transformer