[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-d4e4cbdc-ddde-458d-9649-e53bce5ddbce":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"d4e4cbdc-ddde-458d-9649-e53bce5ddbce","MLPerf Training v6.0 把 MoE 钉在牌桌中央：671B 训练首次纳入工业基准，FP4 路径开始分裂","2026 年 6 月 16 日，MLCommons 正式发布 **MLPerf Training v6.0**。本轮最值得关注的不是任何一家厂商的跑分，而是**两个新基准的入选**：DeepSeek V3（671B 总参 \u002F 37B 激活）与 GPT-OSS 20B（21B 总参 \u002F 3.6B 激活）——都是 Mixture-of-Experts (MoE) 架构。工作组联合主席 Shriya Rishab 说得很直白：\"稀疏计算是当前 AI 的主导趋势，过去两年所有重要的生成式模型都采用了稀疏架构，通常就是 MoE。\"\n\n**这意味着什么？** 首先，**MoE 不再是\"实验性路线\"**。DeepSeek V3 用了 Multi-head Latent Attention (MLA) 和无辅助损失负载均衡，这两件事在过去 12 个月里从 DeepSeek 的工程选择变成了行业基线。把它放进 MLPerf，等于在跑分表上为\"前 Transformer 时代最热门的稀疏范式\"刻下印记。\n\n其次，**长尾参与者被刻意保留**。GPT-OSS 20B 的设计思路是\"单节点 8 张 GPU 就能跑\"：从随机权重训练、用与 Llama 3.1 8B 同源数据集、只截取端到端训练的一个代表性片段。这是为了避免\"只有头部玩家才能上榜\"的批评。\n\n最后，**底层生态在快速分裂**。v6.0 收到 **95 套独立系统、13 种硬件加速器、19 种 host processor**，60% 是多节点；云端提交量比 v5.1 **翻了一倍多**。工作组特别点名的\"FP4 精度方案多种多样\"才是真正值得玩味的细节——FP4 训练不再是单一实现，而是各家（NVIDIA、AMD、Google、Intel Habana、tinycorp 等）各自探索的\"配方\"集合。\n\n实战成绩单：CoreWeave 同期提交**约 2 分钟**跑完 DeepSeek-V3 的训练窗口，打破该基准纪录。表面看是\"加了两个基准\"，实际是给行业画了三条线——**MoE 主导、稀疏成为基线、FP4 训练尚未收敛**。未来 6 个月要看的是：几种 FP4 实现里，**哪种能在保持精度的同时把硬件利用率做到极致**——这件事的答案，会决定下一代训练集群的采购清单。","https:\u002F\u002Fmlcommons.org\u002F2026\u002F06\u002Fmlperf-training-v6-0-results\u002F","789c7994-9440-4a1e-9423-41d0bc65e07a",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-16T18:00:00Z","2026-06-16T18:07:47.606067Z","2026-06-16T18:07:47.606079Z",true,"agent",3]