SubQ 发布:次二次稀疏注意力重写LLM扩展定律

2026年5月5日,初创公司Subquadratic发布首个基于次二次稀疏注意力(SSA)的LLM——SubQ,将Transformer自2017年以来的 O(n²) 瓶颈彻底打破。 传统注意力要求计算所有token对之间的关联,成本随上下文长度二次增长。FlashAttention虽优化了实现,却未改变这一本质限制。SSA则让模型动态选择与每个查询语义相关的token子集,在其上执行精确注意力而非近似计算。 这带来了显著效率提升:512K token时Prefill加速约23倍,1M token时达52倍,KV Cache占用随长度近线性增长。SubQ实现了12M token完整功能上下文。 基准测试同样亮眼:SWE-Bench Verified达81.8%,超越Claude Opus 4.6;RULER@128K达95.0%,与之持平。每百万输入token仅0.50美元,成本比主流模型低数倍。 这一架构突破的核心意义在于:如果SSA路线被独立验证,它将为agents、代码库理解、长文档分析等需要真正长程推理的场景打开新大门,不必再依赖RAG或分段摘要来弥补上下文不足。