Claude Opus 4.5 发布:Anthropic 夺回编程能力榜首位置

Anthropic 推出了其最新旗舰模型 Claude Opus 4.5,官方声称这是目前世界上最好的编程、Agent 和计算机使用模型。在 SWE-bench 真实 GitHub Bug 修复测试中,Opus 4.5 以 80.9% 的得分超越 GPT-5.1(76.3%)和 Gemini 3 Pro(76.2%),创下了该基准的历史新高。 在推理能力方面,Opus 4.5 在 ARC-AGI-2 抽象推理测试中得分 37.6%,是 GPT-5.1(17.6%)的两倍以上,领先 Gemini 3 Pro 约 6 个百分点。但 Gemini 3 Pro 在 Humanity's Last Exam 上略胜一筹,差距在 2-7% 之间。 值得关注的是安全能力。Anthropic 强调 Opus 4.5 在 Agentic Safety 评估中表现出行业领先的鲁棒性,对抗 Prompt Injection 攻击的能力比 GPT-5.1 和 Gemini 3 Pro 约好 10%。这表明 Anthropic 在推进模型能力的同时,并未放松对安全性的关注。 Opus 4.5 已通过 Claude API 提供,支持 Anthropic 扩展的工具使用和 Agentic 功能。这场头部玩家的激烈竞争,正在将大模型的能力边界快速向前推进。