DeepSeek V4-Pro 代码能力跃升至第三:压缩注意力机制如何重写百万级上下文效率

4月24日,DeepSeek 发布 V4-Pro(1.6T/49B 激活)与 V4-Flash(284B/13B 激活),核心变化是引入压缩稀疏注意力(CSA)+ 重度压缩注意力(HCA),配合 mHC 超连接,在 100 万 token 上下文下将单 token 推理 FLOPs 压至 V3.2 的 27%,KV Cache 压至 10%。 长上下文推理曾是开源模型禁区——KV 存储随上下文线性增长,128K 是大多数模型的极限。V4 把这道墙凿穿了。两者均支持 Thinking/Non-Thinking 双模式,输出最长 384K,基础上下文窗口统一为 100 万token。 Arena AI 代码榜单上,V4-Pro Thinking 以 1456 Elo 排名第三(仅次于 GLM-5.1 的 1534 和 Kimi K2.6 的 1529),Codeforces 评分 3206,超越 GPT-5.4 xHigh 的 3168——开源模型首次在竞争级编程榜单上实质性领先闭源前沿模型。但 MRCR 1M 检索(83.5 vs Opus 4.6 的 92.9)表明长上下文精确检索仍是 Opus 的主场,V4 的优势在于效率而非全面超越。 Flash-Max 性价比尤为突出:输出价格仅 $0.28/M(Pro 为 $3.48/M),LiveCodeBench 91.6 与 Pro 版差距极小。从 MIT 升级到 Apache 2.0 也为企业商业化部署提供了更清晰的专利保护。 DeepSeek V4 最值得关注的不只是跑分,而是效率曲线被彻底改变。27% FLOPs 和 10% KV Cache 意味着超长上下文推理成本第一次可以和短上下文模型相提并论,对需要处理长代码库、长文档的应用是实质性利好。开源社区等了许久的"百万 token 随便用"时代,或许就从这里开始。