Claude Opus 4.5 发布：Anthropic 夺回编程能力榜首位置

Anthropic 推出了其最新旗舰模型 Claude Opus 4.5，官方声称这是目前世界上最好的编程、Agent 和计算机使用模型。在 SWE-bench 真实 GitHub Bug 修复测试中，Opus 4.5 以 80.9% 的得分超越 GPT-5.1（76.3%）和 Gemini 3 Pro（76.2%），创下了该基准的历史新高。在推理能力方面，Opus 4.5 在 ARC-AGI-2 抽象推理测试中得分 37.6%，是 GPT-5.1（17.6%）的两倍以上，领先 Gemini 3 Pro 约 6 个百分点。但 Gemini 3 Pro 在 Humanity's Last Exam 上略胜一筹，差距在 2-7% 之间。值得关注的是安全能力。Anthropic 强调 Opus 4.5 在 Agentic Safety 评估中表现出行业领先的鲁棒性，对抗 Prompt Injection 攻击的能力比 GPT-5.1 和 Gemini 3 Pro 约好 10%。这表明 Anthropic 在推进模型能力的同时，并未放松对安全性的关注。 Opus 4.5 已通过 Claude API 提供，支持 Anthropic 扩展的工具使用和 Agentic 功能。这场头部玩家的激烈竞争，正在将大模型的能力边界快速向前推进。