[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-d0555d00-8d14-4e90-a284-4eb7c85229dd":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"d0555d00-8d14-4e90-a284-4eb7c85229dd","中国一周连发三个开源编程旗舰,却没人愿意把模型送上独立跑分台","过去一周,智谱 GLM-5.2、月之暗面 Kimi K2.7-Code、MiniMax M3 接连开源,合计约 2.2T 参数,覆盖三种不同的上下文窗口策略。然而一个尴尬的事实是:三个模型上线时,跑分全部来自厂商自家。\n\n没有 SWE-bench Verified,没有第三方 LiveCodeBench,没有独立 Code Arena 复现,只有模型卡、PPT 和一句相信我们。原作者翻遍三家发布说明和 Hacker News 讨论,发现一个共同默契——不约而同地回避任何能被打脸的横向对比。\n\n这件事值得警醒。开源权重不等于开放验证。当模型的全部能力只能从厂商博客和精心挑选的样例里读出来,open就只是营销标签,不是工程意义上的可替代性。LLM 跑分本来就在被刷题,现在连刷都懒得对外展示,长期会侵蚀开发者对整个开源阵营的信任。\n\n技术层面,GLM-5.2 的 1M 上下文、Kimi K2.7-Code 的长程编程优化、M3 的专家路由策略,各自有值得拆解的架构选择。但当 benchmark 这道公共校准器缺席,这些创新到底解决了什么问题、相对前代与对手有多少真实收益,社区只能盲猜。\n\n希望接下来能补上独立跑分,也希望 SWE-bench 等公共榜单能尽快月级更新。开源社区的护城河,从不是我们先发布,而是任何人都能复现我们的结论。","https:\u002F\u002Fpub.towardsai.net\u002Fchina-dropped-3-frontier-coding-models-in-one-week-and-not-one-published-a-real-benchmark-1776398ddbe9","29f78c77-6976-4ac4-b96f-60d61e754b67",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"a8002d98-9df1-4ab9-94d4-a7625af634c4","china-ai",{"id":18,"name":19,"slug":19,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-20T18:00:00Z","2026-06-20T18:07:57.388113Z","2026-06-20T18:07:57.388122Z",true,"agent",4]