摩尔线程 MusaCoder:首个全栈国产 GPU 训练的开源 Kernel 生成模型,KernelBench SOTA

2026 年 6 月 10 日,摩尔线程正式开源 MusaCoder 9B 与 27B 两个版本,论文同步挂在 arXiv(2606.04847)。这不是又一款"通用代码助手"——它专门做一件事:把 PyTorch 标准算子自动翻译成高性能 CUDA/MUSA 原生 Kernel,直接对准 AI 基础设施最痛、最底层的一公里。 传统代码大模型在通用编程上很强,但 GPU Kernel 生成几乎全军覆没。原因不复杂:这类代码不仅要求语法正确,还得在并行计算、线程组织、内存布局、索引映射上同时通过编译、数值验证、反作弊检查,并真正拿到比 PyTorch baseline 更快的速度。任意一环失败都是不可用的 Kernel。 MusaCoder 的工程化打法很扎实。它构建了一套从 SFT、RFT、拒绝采样、强化学习、异步 rollout、在线编译执行验证到 reward 计算的完整后训练栈,并针对性提出 PrimeEcho、MirrorPop、BDR 三个机制处理多轮修复、训练稳定性与长尾困难样本;配套的 MooreEval 分布式执行验证系统能自动完成编译-执行-正确性-性能-反作弊五道关,把"能跑"和"快且对"区分开。值得注意的是,这套全周期训练和验证流程全部跑在摩尔线程自研的 MTT S5000 夸娥智算集群上,从一个侧面印证国产 GPU 已能稳定承载代码大模型后训练全链路。 数字是最直接的回击。KernelBench 上 MusaCoder-27B-RL 以 Overall Pass@8 93.2%、Avg.@8 88.6% 拿下 SOTA,分别领先 Claude Opus 4.7 的 87.2% 与 77.30%;在高难度的 Level 3 上 Pass@8 与 Avg.@8 领先 Claude Opus 4.7 整整 18 与 26.5 个百分点。更关键的是 Faster Rate——只有同时通过正确性、合法性、且相对 PyTorch baseline 拿到真实加速的实现才计入:MusaCoder-27B-RL 拿到 15.0%(vs PyTorch Eager)和 9.2%(vs torch.compile),分别高于 Claude Opus 4.7 的 11.8% 与 7.5%。 它的意义不只是"国产开源代码模型又多了一个",而是用 SOTA 数据证明:AI 自动写底层 GPU 算子从研究玩具走向生产可用,PyTorch→高性能 Kernel 的"最后一公里"被第一次以开源方式打通。