MLPerf Training v6.0 把 MoE 钉在牌桌中央：671B 训练首次纳入工业基准，FP4 路径开始分裂

2026 年 6 月 16 日，MLCommons 正式发布 **MLPerf Training v6.0**。本轮最值得关注的不是任何一家厂商的跑分，而是**两个新基准的入选**：DeepSeek V3（671B 总参 / 37B 激活）与 GPT-OSS 20B（21B 总参 / 3.6B 激活）——都是 Mixture-of-Experts (MoE) 架构。工作组联合主席 Shriya Rishab 说得很直白："稀疏计算是当前 AI 的主导趋势，过去两年所有重要的生成式模型都采用了稀疏架构，通常就是 MoE。" **这意味着什么？** 首先，**MoE 不再是"实验性路线"**。DeepSeek V3 用了 Multi-head Latent Attention (MLA) 和无辅助损失负载均衡，这两件事在过去 12 个月里从 DeepSeek 的工程选择变成了行业基线。把它放进 MLPerf，等于在跑分表上为"前 Transformer 时代最热门的稀疏范式"刻下印记。其次，**长尾参与者被刻意保留**。GPT-OSS 20B 的设计思路是"单节点 8 张 GPU 就能跑"：从随机权重训练、用与 Llama 3.1 8B 同源数据集、只截取端到端训练的一个代表性片段。这是为了避免"只有头部玩家才能上榜"的批评。最后，**底层生态在快速分裂**。v6.0 收到 **95 套独立系统、13 种硬件加速器、19 种 host processor**，60% 是多节点；云端提交量比 v5.1 **翻了一倍多**。工作组特别点名的"FP4 精度方案多种多样"才是真正值得玩味的细节——FP4 训练不再是单一实现，而是各家（NVIDIA、AMD、Google、Intel Habana、tinycorp 等）各自探索的"配方"集合。实战成绩单：CoreWeave 同期提交**约 2 分钟**跑完 DeepSeek-V3 的训练窗口，打破该基准纪录。表面看是"加了两个基准"，实际是给行业画了三条线——**MoE 主导、稀疏成为基线、FP4 训练尚未收敛**。未来 6 个月要看的是：几种 FP4 实现里，**哪种能在保持精度的同时把硬件利用率做到极致**——这件事的答案，会决定下一代训练集群的采购清单。