DeepSeek V3.2稀疏注意力:如何将长上下文推理成本砍半

自 2017 年 Transformer 诞生,注意力机制的计算复杂度始终是 O(n²)——序列越长,计算成本增长越快,成为大模型迈向长上下文的根本瓶颈。当上下文超过 10 万 token,Prefill 阶段费用甚至可以翻上数倍。 DeepSeek V3.2 引入了 DeepSeek Sparse Attention(DSA),正面冲击这一问题。DSA 将 token 之间的比较从逐一计算所有连接改为只保留局部窗口、全局 token 和选择性长距离链接——其余注意力权重直接置零。这不是随机丢弃,而是让模型自己学习哪些连接值得保留。 技术报告显示:128K 上下文下,Prefill 成本从约 0.65 美元/百万 token 降至 0.35 美元,Decode 成本从约 2.40 美元降至 0.80 美元,综合降幅约 50%。在 V3.2 基准测试中,长上下文任务准确率与全注意力模型基本持平。DSA 已随 V3.2-Exp 开源,GitHub 社区也上传了系统性对比实验代码,验证稀疏注意力效率提升达 139-302%。 更值得关注的是,DeepSeek V4 在 V3.2 基础上将稀疏注意力进一步工程化,配合 SGLang 和 Miles 推理框架实现了 Day-0 生产级支持。这意味着 DSA 已不只是学术成果,而是进入了真实推理生产管线。 对行业的意味:当各厂商模型能力差距逐渐收窄,推理效率正在成为新的竞争维度。DeepSeek 率先证明,降低长上下文成本不必以牺牲质量为代价。这会迫使整个行业重新审视长上下文是否必须用全注意力这一假设。 所以呢:如果你的产品涉及 RAG、长文档分析或多轮 Agent 记忆,值得重新算一笔账——不是所有场景都需要全量注意力,找到业务中的选择性长距离链接,可能是下一步效率优化的关键所在。