NVIDIA NeMo AutoModel 把 MoE 微调吞吐抬到 3.4–3.7 倍：HF Transformers v5 之上加 Expert Parallelism + DeepEP

NVIDIA 开源 NeMo AutoModel：基于 HuggingFace Transformers v5，叠加 Expert Parallelism、DeepEP dispatch 与 TransformerEngine 内核，把 MoE 微调吞吐抬到 v5 的 3.4–3.7 倍、显存再省 29–32%，用户只改一行 import。基准三档：Nemotron 3 Ultra 550B 在 16 节点 128 张 H100、EP=64 下全参微调（v5 OOM）；Qwen3-30B-A3B 与 Nemotron Nano 30B 在 8 卡 H100、EP=8 下 TPS/GPU 11,340/15,421，显存 48.1/42.5 GiB。三层优化：EP 把单卡 MoE 占用砍到 1/8，DeepEP 把 AllGather/ReduceScatter 融进 GPU 内核与 expert GEMM 重叠，TE 提供 fused attention/RMSNorm/linear。v5 把 expert backends 做成第一公民，NeMo AutoModel 在其上接工业级并行栈——MoE 训练第一次以「一行 import」跨过「单卡跑不起来、跨卡会死锁」的工程门槛。