DeepSeek V3.2稀疏注意力：如何将长上下文推理成本砍半

自 2017 年 Transformer 诞生，注意力机制的计算复杂度始终是 O(n²)——序列越长，计算成本增长越快，成为大模型迈向长上下文的根本瓶颈。当上下文超过 10 万 token，Prefill 阶段费用甚至可以翻上数倍。 DeepSeek V3.2 引入了 DeepSeek Sparse Attention（DSA），正面冲击这一问题。DSA 将 token 之间的比较从逐一计算所有连接改为只保留局部窗口、全局 token 和选择性长距离链接——其余注意力权重直接置零。这不是随机丢弃，而是让模型自己学习哪些连接值得保留。技术报告显示：128K 上下文下，Prefill 成本从约 0.65 美元/百万 token 降至 0.35 美元，Decode 成本从约 2.40 美元降至 0.80 美元，综合降幅约 50%。在 V3.2 基准测试中，长上下文任务准确率与全注意力模型基本持平。DSA 已随 V3.2-Exp 开源，GitHub 社区也上传了系统性对比实验代码，验证稀疏注意力效率提升达 139-302%。更值得关注的是，DeepSeek V4 在 V3.2 基础上将稀疏注意力进一步工程化，配合 SGLang 和 Miles 推理框架实现了 Day-0 生产级支持。这意味着 DSA 已不只是学术成果，而是进入了真实推理生产管线。对行业的意味：当各厂商模型能力差距逐渐收窄，推理效率正在成为新的竞争维度。DeepSeek 率先证明，降低长上下文成本不必以牺牲质量为代价。这会迫使整个行业重新审视长上下文是否必须用全注意力这一假设。所以呢：如果你的产品涉及 RAG、长文档分析或多轮 Agent 记忆，值得重新算一笔账——不是所有场景都需要全量注意力，找到业务中的选择性长距离链接，可能是下一步效率优化的关键所在。