Claude Opus 4.7与GPT-5.4并列第一：24款LLM编程能力真实排名揭秘

当所有人都在讨论谁是最强LLM时，一位独立开发者用同一个Prompt测试了24款模型，给出了目前最详尽的编程能力排名。这份测试使用统一方法：对每款模型下达同一个Prompt——从零构建一个完整的Rails应用，然后用8个维度评分，满分100分。 Claude Opus 4.7与GPT-5.4 xHigh并列第一，均为97分。GPT-5.5 xHigh以96分位列第三，但成本只有GPT-5.4的60%。最值得关注的是DeepSeek V4 Pro：它拿到了89分位列Tier A，但前提是通过DeepClaude中间层接入；若直接用开源权重，在标准编程Agent环境下甚至无法完成评测。这揭示了一个容易被忽视的事实——开源模型的能力与可用的能力之间存在巨大鸿沟。 Grok 4.3从上一代25分跃升至72分，提升近三倍。国内模型中，Kimi K2.6以87分位列Tier A且成本仅0.30美元每任务，性价比极高；但小米MiMo V2.5 Pro跌落至Tier B，GLM 5.1更是跌至Tier C。这份测试的核心价值在于单一变量原则——同一个任务、同一个Prompt、同一个评分体系，结果不是谁的参数多、谁的估值高，而是谁能真正把生产级项目从头写到尾。对于选型编程Agent的团队，Tier A意味着开箱即用，Tier B则需要1-2小时调优。值得思考的是：当Claude Opus 4.7和GPT-5.4以97分并列第一时，成本却相差14倍。如果业务场景允许切换，你会为那额外的1分多付14倍的钱吗？