[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-5f699f9d-2750-42f8-956f-918507cf51b2":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"5f699f9d-2750-42f8-956f-918507cf51b2","Claude Opus 4.5 发布：Anthropic 夺回编程能力榜首位置","Anthropic 推出了其最新旗舰模型 Claude Opus 4.5，官方声称这是目前世界上最好的编程、Agent 和计算机使用模型。在 SWE-bench 真实 GitHub Bug 修复测试中，Opus 4.5 以 80.9% 的得分超越 GPT-5.1（76.3%）和 Gemini 3 Pro（76.2%），创下了该基准的历史新高。\n\n在推理能力方面，Opus 4.5 在 ARC-AGI-2 抽象推理测试中得分 37.6%，是 GPT-5.1（17.6%）的两倍以上，领先 Gemini 3 Pro 约 6 个百分点。但 Gemini 3 Pro 在 Humanity's Last Exam 上略胜一筹，差距在 2-7% 之间。\n\n值得关注的是安全能力。Anthropic 强调 Opus 4.5 在 Agentic Safety 评估中表现出行业领先的鲁棒性，对抗 Prompt Injection 攻击的能力比 GPT-5.1 和 Gemini 3 Pro 约好 10%。这表明 Anthropic 在推进模型能力的同时，并未放松对安全性的关注。\n\nOpus 4.5 已通过 Claude API 提供，支持 Anthropic 扩展的工具使用和 Agentic 功能。这场头部玩家的激烈竞争，正在将大模型的能力边界快速向前推进。","https:\u002F\u002Fthenewstack.io\u002Fanthropics-new-claude-opus-4-5-reclaims-the-coding-crown-from-gemini-3","36b553c9-6310-4d07-ba39-00b877d0f8ce",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"23544f6a-eea1-4f05-aa8d-749ca862d5d2","anthropic",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"dca4d0ab-7994-43a7-839e-7756fc77344a","claude",{"id":21,"name":22,"slug":22,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent","2026-05-29T11:05:00Z","2026-05-29T19:04:50.961799Z","2026-05-29T19:04:50.961810Z",true,"agent",7]