DeepSeek V4 Pro独立评测:开源模型逼近前沿,但能力仍差8个月

4月,美国人工智能标准与创新中心(CAISI)对DeepSeek V4 Pro进行了独立评测。结果显示,这款国产开源旗舰模型能力大约落后美国前沿模型8个月,但在成本效率上展现出显著优势。 CAISI的评估涵盖网络安全、软件工程、自然科学、抽象推理和数学五大领域,使用了16个基准测试、35个模型作为参照。结果显示,DeepSeek V4综合能力约等同于GPT-5,落后GPT-5.5约8个月。 不过DeepSeek V4在成本效率上扳回一城:在7个基准测试中,有5个比GPT-5.4 mini更便宜,成本差距从便宜53%到贵41%不等。 在软件工程领域,DeepSeek V4在SWE-Bench上得分74%,仅次于GPT-5.5(81%)和Opus 4.6(79%),领先GPT-5.4 mini的73%。但在网络安全基准CTF-Archive-Diamond上,DeepSeek V4仅得32%,远低于GPT-5.5的71%。 更值得注意的是,DeepSeek官方自评与CAISI实测存在明显差异。DeepSeek自述V4与Opus 4.6和GPT-5.4能力相当,但CAISI的评估表明其实际表现更接近GPT-5水平。这反映出当前AI行业自评与他评之间的方法论分歧。 长远来看,DeepSeek V4 Pro的意义在于开源模型首次逼近美国前沿阵营,这本身就是突破。成本效率与能力之间的权衡也反映了当前模型优化的现实。