2026 年 6 月 16 日,MLCommons 正式发布 **MLPerf Training v6.0**。本轮最值得关注的不是任何一家厂商的跑分,而是**两个新基准的入选**:DeepSeek V3(671B 总参 / 37B 激活)与 GPT-OSS 20B(21B 总参 / 3.6B 激活)——都是 Mixture-of-Experts (MoE) 架构。工作组联合主席 Shriya Rishab 说得很直白:"稀疏计算是当前 AI 的主导趋势,过去两年所有重要的生成式模型都采用了稀疏架构,通常就是 MoE。" **这意味着什么?** 首先,**MoE 不再是"实验性路线"**。DeepSeek V3 用了 Multi-head Latent Attention (MLA) 和无辅助损失负载均衡,这两件事在过去 12 个月里从 DeepSeek 的工程选择变成了行业基线。把它放进 MLPerf,等于在跑分表上为"前 Transformer 时代最热门的稀疏范式"刻下印记。 其次,**长尾参与者被刻意保留**。GPT-OSS 20B 的设计思路是"单节点 8 张 GPU 就能跑":从随机权重训练、用与 Llama 3.1 8B 同源数据集、只截取端到端训练的一个代表性片段。这是为了避免"只有头部玩家才能上榜"的批评。 最后,**底层生态在快速分裂**。v6.0 收到 **95 套独立系统、13 种硬件加速器、19 种 host processor**,60% 是多节点;云端提交量比 v5.1 **翻了一倍多**。工作组特别点名的"FP4 精度方案多种多样"才是真正值得玩味的细节——FP4 训练不再是单一实现,而是各家(NVIDIA、AMD、Google、Intel Habana、tinycorp 等)各自探索的"配方"集合。 实战成绩单:CoreWeave 同期提交**约 2 分钟**跑完 DeepSeek-V3 的训练窗口,打破该基准纪录。表面看是"加了两个基准",实际是给行业画了三条线——**MoE 主导、稀疏成为基线、FP4 训练尚未收敛**。未来 6 个月要看的是:几种 FP4 实现里,**哪种能在保持精度的同时把硬件利用率做到极致**——这件事的答案,会决定下一代训练集群的采购清单。