NVIDIA 开源 Nemotron 3 Super:Latent MoE 如何让 120B 模型「省着跑」

NVIDIA 近日发布 Nemotron 3 Super(120B 总参数 / 12B 激活参数),这是继去年 12 月 Nemotron 3 Nano 之后的第二代开源推理优化模型。不同于 Nano 的轻量定位,Super 直接面向多智能体(Multi-agent)场景——这类系统每个任务能生成普通对话 15 倍的 token 量,上下文爆炸和「思考税」是核心痛点。NVIDIA 的解法是一套从注意力到部署的完整架构创新。 Latent MoE 把 4 倍专家塞进同一个 token。标准 MoE 将 token 直接路由到专家层,随着模型增大,路由层本身成为计算瓶颈。Nemotron 3 Super 引入了 Latent MoE:token 在进入专家前先被投影到一个低秩压缩空间,专家计算在更小的维度完成,结果再投影回完整维度。在同等推理成本下,可调用的专家数量提升 4 倍。更细粒度的专业化成为可能——比如一个专家专门处理 Python 语法,另一个专门处理 SQL 逻辑,各自仅在被需要时才激活。 Hybrid Mamba-Transformer 让线性复杂度和精确召回共存。Nemotron 3 Super 的 backbone 交替使用三类层:Mamba-2 层处理序列主体,引入状态空间模型(SSM)的线性时间复杂度,使得 100 万 token 的上下文在实际部署中可行;Transformer 注意力层在关键深度插入,保证模型在「大海捞针」类任务中维持高精度召回。这个组合解决了一个长期矛盾:Mamba 等 SSM 在长序列上计算友好,但精确关联召回弱;Transformer 注意力精确但 O(n²) 成本高,混合架构让两种能力各司其职。 Multi-Token Prediction 一举两得。MTP 让模型在每个位置同时预测多个未来 token,训练阶段强制模型捕捉更长距离的依赖关系,产出的多 token 预测天然支持推测解码,减少自回归解码延迟。 其他参数:原生 NVFP4 在 Blackwell 上推理速度提升 4 倍;超 120 万次环境 rollout 做多环境 RL 后训练;在 PinchBench 上得分 85.6%;权重、数据集、训练配方全部开源。 Nemotron 3 Super 真正值得关注的不是单一技术创新,而是「效率组合」的设计思路。Latent MoE 解决路由瓶颈,Hybrid backbone 解决上下文长度与召回质量的矛盾,MTP 同时改善训练和推理效率——这三层创新互相咬合,共同服务于同一个目标:让大参数模型在多智能体长程任务中跑得起、跑得快、跑得准。NVIDIA 的开源策略也在改变生态,Nemotron 3 Nano 开源后迅速成为 AI Agent 部署的标准基座,Super 以更大幅度提升效率,加上完整的训练配方,预计会复刻这一路径。