在AI编程挑战赛「宝石单词拼图」项目中,Moonshot AI 的开源模型 Kimi K2.6 以 7 胜 1 负、22 积分横扫 GPT-5.5、Claude Opus 4.7 和 Gemini Pro 3.1 等闭源旗舰模型夺冠。 比赛要求模型在 10×10 至 30×30 的滑动拼图上 10 秒内构建有效单词,长词得分、短词扣分。Kimi K2.6 以贪心策略持续滑动,在大网格中累积全场最高分。Claude Opus 4.7 在大网格上未能完成必要滑动,Muse Spark 误解扣分规则导致得分低至 -15309。 完整排名:Kimi K2.6(22分)、小米 MiMo V2-Pro(20分)、GPT-5.5(16分)、GLM 5.1(15分)、Claude Opus 4.7(12分)、Gemini Pro 3.1(9分)、Grok Expert 4.2(9分)、DeepSeek V4(3分)、Muse Spark(0分)。 这场比赛揭示了模型评估中被忽视的维度:长时推理的策略执行与规则理解能力,而非 benchmark 分数。开源模型正重新定义 AI 编程助手竞争格局。