DeepSeek V4 Pro独立评测：开源模型逼近前沿，但能力仍差8个月

4月，美国人工智能标准与创新中心（CAISI）对DeepSeek V4 Pro进行了独立评测。结果显示，这款国产开源旗舰模型能力大约落后美国前沿模型8个月，但在成本效率上展现出显著优势。 CAISI的评估涵盖网络安全、软件工程、自然科学、抽象推理和数学五大领域，使用了16个基准测试、35个模型作为参照。结果显示，DeepSeek V4综合能力约等同于GPT-5，落后GPT-5.5约8个月。不过DeepSeek V4在成本效率上扳回一城：在7个基准测试中，有5个比GPT-5.4 mini更便宜，成本差距从便宜53%到贵41%不等。在软件工程领域，DeepSeek V4在SWE-Bench上得分74%，仅次于GPT-5.5（81%）和Opus 4.6（79%），领先GPT-5.4 mini的73%。但在网络安全基准CTF-Archive-Diamond上，DeepSeek V4仅得32%，远低于GPT-5.5的71%。更值得注意的是，DeepSeek官方自评与CAISI实测存在明显差异。DeepSeek自述V4与Opus 4.6和GPT-5.4能力相当，但CAISI的评估表明其实际表现更接近GPT-5水平。这反映出当前AI行业自评与他评之间的方法论分歧。长远来看，DeepSeek V4 Pro的意义在于开源模型首次逼近美国前沿阵营，这本身就是突破。成本效率与能力之间的权衡也反映了当前模型优化的现实。