摩尔线程 MusaCoder：首个全栈国产 GPU 训练的开源 Kernel 生成模型，KernelBench SOTA

2026 年 6 月 10 日，摩尔线程正式开源 MusaCoder 9B 与 27B 两个版本，论文同步挂在 arXiv（2606.04847）。这不是又一款"通用代码助手"——它专门做一件事：把 PyTorch 标准算子自动翻译成高性能 CUDA/MUSA 原生 Kernel，直接对准 AI 基础设施最痛、最底层的一公里。传统代码大模型在通用编程上很强，但 GPU Kernel 生成几乎全军覆没。原因不复杂：这类代码不仅要求语法正确，还得在并行计算、线程组织、内存布局、索引映射上同时通过编译、数值验证、反作弊检查，并真正拿到比 PyTorch baseline 更快的速度。任意一环失败都是不可用的 Kernel。 MusaCoder 的工程化打法很扎实。它构建了一套从 SFT、RFT、拒绝采样、强化学习、异步 rollout、在线编译执行验证到 reward 计算的完整后训练栈，并针对性提出 PrimeEcho、MirrorPop、BDR 三个机制处理多轮修复、训练稳定性与长尾困难样本；配套的 MooreEval 分布式执行验证系统能自动完成编译-执行-正确性-性能-反作弊五道关，把"能跑"和"快且对"区分开。值得注意的是，这套全周期训练和验证流程全部跑在摩尔线程自研的 MTT S5000 夸娥智算集群上，从一个侧面印证国产 GPU 已能稳定承载代码大模型后训练全链路。数字是最直接的回击。KernelBench 上 MusaCoder-27B-RL 以 Overall Pass@8 93.2%、Avg.@8 88.6% 拿下 SOTA，分别领先 Claude Opus 4.7 的 87.2% 与 77.30%；在高难度的 Level 3 上 Pass@8 与 Avg.@8 领先 Claude Opus 4.7 整整 18 与 26.5 个百分点。更关键的是 Faster Rate——只有同时通过正确性、合法性、且相对 PyTorch baseline 拿到真实加速的实现才计入：MusaCoder-27B-RL 拿到 15.0%（vs PyTorch Eager）和 9.2%（vs torch.compile），分别高于 Claude Opus 4.7 的 11.8% 与 7.5%。它的意义不只是"国产开源代码模型又多了一个"，而是用 SOTA 数据证明：AI 自动写底层 GPU 算子从研究玩具走向生产可用，PyTorch→高性能 Kernel 的"最后一公里"被第一次以开源方式打通。