Claude Opus 4.7与GPT-5.4并列第一:24款LLM编程能力真实排名揭秘

当所有人都在讨论谁是最强LLM时,一位独立开发者用同一个Prompt测试了24款模型,给出了目前最详尽的编程能力排名。 这份测试使用统一方法:对每款模型下达同一个Prompt——从零构建一个完整的Rails应用,然后用8个维度评分,满分100分。 Claude Opus 4.7与GPT-5.4 xHigh并列第一,均为97分。GPT-5.5 xHigh以96分位列第三,但成本只有GPT-5.4的60%。最值得关注的是DeepSeek V4 Pro:它拿到了89分位列Tier A,但前提是通过DeepClaude中间层接入;若直接用开源权重,在标准编程Agent环境下甚至无法完成评测。这揭示了一个容易被忽视的事实——开源模型的能力与可用的能力之间存在巨大鸿沟。 Grok 4.3从上一代25分跃升至72分,提升近三倍。国内模型中,Kimi K2.6以87分位列Tier A且成本仅0.30美元每任务,性价比极高;但小米MiMo V2.5 Pro跌落至Tier B,GLM 5.1更是跌至Tier C。 这份测试的核心价值在于单一变量原则——同一个任务、同一个Prompt、同一个评分体系,结果不是谁的参数多、谁的估值高,而是谁能真正把生产级项目从头写到尾。对于选型编程Agent的团队,Tier A意味着开箱即用,Tier B则需要1-2小时调优。 值得思考的是:当Claude Opus 4.7和GPT-5.4以97分并列第一时,成本却相差14倍。如果业务场景允许切换,你会为那额外的1分多付14倍的钱吗?