NVIDIA NeMo AutoModel 把 MoE 微调吞吐抬到 3.4–3.7 倍:HF Transformers v5 之上加 Expert Parallelism + DeepEP

NVIDIA 开源 NeMo AutoModel:基于 HuggingFace Transformers v5,叠加 Expert Parallelism、DeepEP dispatch 与 TransformerEngine 内核,把 MoE 微调吞吐抬到 v5 的 3.4–3.7 倍、显存再省 29–32%,用户只改一行 import。基准三档:Nemotron 3 Ultra 550B 在 16 节点 128 张 H100、EP=64 下全参微调(v5 OOM);Qwen3-30B-A3B 与 Nemotron Nano 30B 在 8 卡 H100、EP=8 下 TPS/GPU 11,340/15,421,显存 48.1/42.5 GiB。三层优化:EP 把单卡 MoE 占用砍到 1/8,DeepEP 把 AllGather/ReduceScatter 融进 GPU 内核与 expert GEMM 重叠,TE 提供 fused attention/RMSNorm/linear。v5 把 expert backends 做成第一公民,NeMo AutoModel 在其上接工业级并行栈——MoE 训练第一次以「一行 import」跨过「单卡跑不起来、跨卡会死锁」的工程门槛。