当上下文窗口迈入百万token级别,注意力机制的O(n²)计算成本就成了拦路虎。DeepSeek V4在架构层面交出了一份激进答卷:Hybrid CSA+HCA(混合压缩稀疏注意力+强压缩注意力),在1M-token场景下仅用V3.2的27% FLOPs和10% KV Cache。这是如何实现的? **CSA:选择性压缩,保留关键细节。** CSA首先沿序列维度以4:1的比例压缩KV缓存,随后通过Lightning Indexer为每个Query筛选出最相关的1024个压缩KV条目,配合128-token滑动窗口提供局部上下文。这意味着模型只在最相关的地方投入精细计算,其余部分靠压缩后的粗粒度表示撑起全局视野。 **HCA:128倍压缩换全局视野。** 相比之下,HCA激进得多——128倍压缩率,但随后在压缩表示上执行稠密注意力。这种「先压再扫」的思路让模型在每一层都能廉价地获得远距离token的全局视角。CSA和HCA在网络中交替排列,前者负责精准检索,后者负责广角扫描,二者互补形成完整的上下文建模能力。 **意义:工程可行性的胜利。** 从DeepSeek公布的数据看,V4-Pro在1M-token下TTFT(首Token延迟)相比V3.2降低超过60%。这意味着在RAG、长文档分析、Agent长程任务等场景中,部署成本将显著下降。更关键的是,这套架构不需要特殊硬件适配,已在SGLang、Miles等主流框架上实现Day-0支持。 **我的观点:** CSA+HCA的交替设计本质上是用「按需精细」替代「全程精细」。这和人类阅读长文时的策略异曲同工——不会对每个句子投入相同的精力,而是根据重要性动态分配注意力。未来会有更多架构走上这条路:从全局粗览到局部详读,用更少的计算换取更高的有效信息密度。