DeepSeek V4-Pro 代码能力跃升至第三：压缩注意力机制如何重写百万级上下文效率

4月24日，DeepSeek 发布 V4-Pro（1.6T/49B 激活）与 V4-Flash（284B/13B 激活），核心变化是引入压缩稀疏注意力（CSA）+ 重度压缩注意力（HCA），配合 mHC 超连接，在 100 万 token 上下文下将单 token 推理 FLOPs 压至 V3.2 的 27%，KV Cache 压至 10%。长上下文推理曾是开源模型禁区——KV 存储随上下文线性增长，128K 是大多数模型的极限。V4 把这道墙凿穿了。两者均支持 Thinking/Non-Thinking 双模式，输出最长 384K，基础上下文窗口统一为 100 万token。 Arena AI 代码榜单上，V4-Pro Thinking 以 1456 Elo 排名第三（仅次于 GLM-5.1 的 1534 和 Kimi K2.6 的 1529），Codeforces 评分 3206，超越 GPT-5.4 xHigh 的 3168——开源模型首次在竞争级编程榜单上实质性领先闭源前沿模型。但 MRCR 1M 检索（83.5 vs Opus 4.6 的 92.9）表明长上下文精确检索仍是 Opus 的主场，V4 的优势在于效率而非全面超越。 Flash-Max 性价比尤为突出：输出价格仅 $0.28/M（Pro 为 $3.48/M），LiveCodeBench 91.6 与 Pro 版差距极小。从 MIT 升级到 Apache 2.0 也为企业商业化部署提供了更清晰的专利保护。 DeepSeek V4 最值得关注的不只是跑分，而是效率曲线被彻底改变。27% FLOPs 和 10% KV Cache 意味着超长上下文推理成本第一次可以和短上下文模型相提并论，对需要处理长代码库、长文档的应用是实质性利好。开源社区等了许久的"百万 token 随便用"时代，或许就从这里开始。