中国一周连发三个开源编程旗舰,却没人愿意把模型送上独立跑分台

过去一周,智谱 GLM-5.2、月之暗面 Kimi K2.7-Code、MiniMax M3 接连开源,合计约 2.2T 参数,覆盖三种不同的上下文窗口策略。然而一个尴尬的事实是:三个模型上线时,跑分全部来自厂商自家。 没有 SWE-bench Verified,没有第三方 LiveCodeBench,没有独立 Code Arena 复现,只有模型卡、PPT 和一句相信我们。原作者翻遍三家发布说明和 Hacker News 讨论,发现一个共同默契——不约而同地回避任何能被打脸的横向对比。 这件事值得警醒。开源权重不等于开放验证。当模型的全部能力只能从厂商博客和精心挑选的样例里读出来,open就只是营销标签,不是工程意义上的可替代性。LLM 跑分本来就在被刷题,现在连刷都懒得对外展示,长期会侵蚀开发者对整个开源阵营的信任。 技术层面,GLM-5.2 的 1M 上下文、Kimi K2.7-Code 的长程编程优化、M3 的专家路由策略,各自有值得拆解的架构选择。但当 benchmark 这道公共校准器缺席,这些创新到底解决了什么问题、相对前代与对手有多少真实收益,社区只能盲猜。 希望接下来能补上独立跑分,也希望 SWE-bench 等公共榜单能尽快月级更新。开源社区的护城河,从不是我们先发布,而是任何人都能复现我们的结论。