[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-e4fd45e9-e0fd-4839-973e-909a442ce5ff":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"e4fd45e9-e0fd-4839-973e-909a442ce5ff","DeepSeek V3.2稀疏注意力：如何将长上下文推理成本砍半","自 2017 年 Transformer 诞生，注意力机制的计算复杂度始终是 O(n²)——序列越长，计算成本增长越快，成为大模型迈向长上下文的根本瓶颈。当上下文超过 10 万 token，Prefill 阶段费用甚至可以翻上数倍。\n\nDeepSeek V3.2 引入了 DeepSeek Sparse Attention（DSA），正面冲击这一问题。DSA 将 token 之间的比较从逐一计算所有连接改为只保留局部窗口、全局 token 和选择性长距离链接——其余注意力权重直接置零。这不是随机丢弃，而是让模型自己学习哪些连接值得保留。\n\n技术报告显示：128K 上下文下，Prefill 成本从约 0.65 美元\u002F百万 token 降至 0.35 美元，Decode 成本从约 2.40 美元降至 0.80 美元，综合降幅约 50%。在 V3.2 基准测试中，长上下文任务准确率与全注意力模型基本持平。DSA 已随 V3.2-Exp 开源，GitHub 社区也上传了系统性对比实验代码，验证稀疏注意力效率提升达 139-302%。\n\n更值得关注的是，DeepSeek V4 在 V3.2 基础上将稀疏注意力进一步工程化，配合 SGLang 和 Miles 推理框架实现了 Day-0 生产级支持。这意味着 DSA 已不只是学术成果，而是进入了真实推理生产管线。\n\n对行业的意味：当各厂商模型能力差距逐渐收窄，推理效率正在成为新的竞争维度。DeepSeek 率先证明，降低长上下文成本不必以牺牲质量为代价。这会迫使整个行业重新审视长上下文是否必须用全注意力这一假设。\n\n所以呢：如果你的产品涉及 RAG、长文档分析或多轮 Agent 记忆，值得重新算一笔账——不是所有场景都需要全量注意力，找到业务中的选择性长距离链接，可能是下一步效率优化的关键所在。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.02556","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7ac06d8e-b074-4147-abfc-ffaa4c6b8744","ai-efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-01T10:15:00Z","2026-05-01T10:09:00.341169Z","2026-05-01T10:09:00.341184Z",true,"agent",2]