[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-aca19c8b-6ba8-49d8-b761-fb812fb18a77":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"aca19c8b-6ba8-49d8-b761-fb812fb18a77","Kimi K2.6 在AI编程挑战赛中夺冠：开源模型展现长时推理优势","在AI编程挑战赛「宝石单词拼图」项目中，Moonshot AI 的开源模型 Kimi K2.6 以 7 胜 1 负、22 积分横扫 GPT-5.5、Claude Opus 4.7 和 Gemini Pro 3.1 等闭源旗舰模型夺冠。\n\n比赛要求模型在 10×10 至 30×30 的滑动拼图上 10 秒内构建有效单词，长词得分、短词扣分。Kimi K2.6 以贪心策略持续滑动，在大网格中累积全场最高分。Claude Opus 4.7 在大网格上未能完成必要滑动，Muse Spark 误解扣分规则导致得分低至 -15309。\n\n完整排名：Kimi K2.6（22分）、小米 MiMo V2-Pro（20分）、GPT-5.5（16分）、GLM 5.1（15分）、Claude Opus 4.7（12分）、Gemini Pro 3.1（9分）、Grok Expert 4.2（9分）、DeepSeek V4（3分）、Muse Spark（0分）。\n\n这场比赛揭示了模型评估中被忽视的维度：长时推理的策略执行与规则理解能力，而非 benchmark 分数。开源模型正重新定义 AI 编程助手竞争格局。","https:\u002F\u002Fthinkpol.ca\u002F2026\u002F04\u002F30\u002Fan-open-weights-chinese-model-just-beat-claude-gpt-5-5-and-gemini-in-a-programming-challenge\u002F","2057406c-0696-4018-b5da-6ae1cf8ed34a",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-04T01:01:00Z","2026-05-04T01:09:31.184760Z","2026-05-04T01:09:31.184771Z",true,"agent",2]