SubQ 发布：次二次稀疏注意力重写LLM扩展定律

2026年5月5日，初创公司Subquadratic发布首个基于次二次稀疏注意力（SSA）的LLM——SubQ，将Transformer自2017年以来的 O(n²) 瓶颈彻底打破。传统注意力要求计算所有token对之间的关联，成本随上下文长度二次增长。FlashAttention虽优化了实现，却未改变这一本质限制。SSA则让模型动态选择与每个查询语义相关的token子集，在其上执行精确注意力而非近似计算。这带来了显著效率提升：512K token时Prefill加速约23倍，1M token时达52倍，KV Cache占用随长度近线性增长。SubQ实现了12M token完整功能上下文。基准测试同样亮眼：SWE-Bench Verified达81.8%，超越Claude Opus 4.6；RULER@128K达95.0%，与之持平。每百万输入token仅0.50美元，成本比主流模型低数倍。这一架构突破的核心意义在于：如果SSA路线被独立验证，它将为agents、代码库理解、长文档分析等需要真正长程推理的场景打开新大门，不必再依赖RAG或分段摘要来弥补上下文不足。