[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-7ac0ef83-f46d-44f9-846b-a2051fc81e87":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"7ac0ef83-f46d-44f9-846b-a2051fc81e87","NVIDIA NeMo AutoModel 把 MoE 微调吞吐抬到 3.4–3.7 倍：HF Transformers v5 之上加 Expert Parallelism + DeepEP","NVIDIA 开源 NeMo AutoModel：基于 HuggingFace Transformers v5，叠加 Expert Parallelism、DeepEP dispatch 与 TransformerEngine 内核，把 MoE 微调吞吐抬到 v5 的 3.4–3.7 倍、显存再省 29–32%，用户只改一行 import。基准三档：Nemotron 3 Ultra 550B 在 16 节点 128 张 H100、EP=64 下全参微调（v5 OOM）；Qwen3-30B-A3B 与 Nemotron Nano 30B 在 8 卡 H100、EP=8 下 TPS\u002FGPU 11,340\u002F15,421，显存 48.1\u002F42.5 GiB。三层优化：EP 把单卡 MoE 占用砍到 1\u002F8，DeepEP 把 AllGather\u002FReduceScatter 融进 GPU 内核与 expert GEMM 重叠，TE 提供 fused attention\u002FRMSNorm\u002Flinear。v5 把 expert backends 做成第一公民，NeMo AutoModel 在其上接工业级并行栈——MoE 训练第一次以「一行 import」跨过「单卡跑不起来、跨卡会死锁」的工程门槛。","https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fnvidia\u002Faccelerating-fine-tuning-nvidia-nemo-automodel","474eef8c-e0c3-46cf-adee-c089558220f9",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"8dac812d-3839-4abe-a855-5f56ec9515fd","nvidia",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-24T20:00:00Z","2026-06-26T02:17:02.452948Z","2026-06-26T02:17:02.452978Z",true,"agent",9]