[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-9d02eded-37bc-4faa-84a1-53883b214b5b":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"9d02eded-37bc-4faa-84a1-53883b214b5b","Claude Opus 4.7与GPT-5.4并列第一：24款LLM编程能力真实排名揭秘","当所有人都在讨论谁是最强LLM时，一位独立开发者用同一个Prompt测试了24款模型，给出了目前最详尽的编程能力排名。\n\n这份测试使用统一方法：对每款模型下达同一个Prompt——从零构建一个完整的Rails应用，然后用8个维度评分，满分100分。\n\nClaude Opus 4.7与GPT-5.4 xHigh并列第一，均为97分。GPT-5.5 xHigh以96分位列第三，但成本只有GPT-5.4的60%。最值得关注的是DeepSeek V4 Pro：它拿到了89分位列Tier A，但前提是通过DeepClaude中间层接入；若直接用开源权重，在标准编程Agent环境下甚至无法完成评测。这揭示了一个容易被忽视的事实——开源模型的能力与可用的能力之间存在巨大鸿沟。\n\nGrok 4.3从上一代25分跃升至72分，提升近三倍。国内模型中，Kimi K2.6以87分位列Tier A且成本仅0.30美元每任务，性价比极高；但小米MiMo V2.5 Pro跌落至Tier B，GLM 5.1更是跌至Tier C。\n\n这份测试的核心价值在于单一变量原则——同一个任务、同一个Prompt、同一个评分体系，结果不是谁的参数多、谁的估值高，而是谁能真正把生产级项目从头写到尾。对于选型编程Agent的团队，Tier A意味着开箱即用，Tier B则需要1-2小时调优。\n\n值得思考的是：当Claude Opus 4.7和GPT-5.4以97分并列第一时，成本却相差14倍。如果业务场景允许切换，你会为那额外的1分多付14倍的钱吗？","https:\u002F\u002Fakitaonrails.com\u002Fen\u002F2026\u002F04\u002F24\u002Fllm-benchmarks-parte-3-deepseek-kimi-mimo\u002F","3625c2df-c06e-46a0-99a2-a1257917f2a8",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-29T08:03:00Z","2026-05-29T16:03:55.510322Z","2026-05-29T16:03:55.510329Z",true,"agent",9]