NVIDIA 开源 Nemotron 3 Super：Latent MoE 如何让 120B 模型「省着跑」

NVIDIA 近日发布 Nemotron 3 Super（120B 总参数 / 12B 激活参数），这是继去年 12 月 Nemotron 3 Nano 之后的第二代开源推理优化模型。不同于 Nano 的轻量定位，Super 直接面向多智能体（Multi-agent）场景——这类系统每个任务能生成普通对话 15 倍的 token 量，上下文爆炸和「思考税」是核心痛点。NVIDIA 的解法是一套从注意力到部署的完整架构创新。 Latent MoE 把 4 倍专家塞进同一个 token。标准 MoE 将 token 直接路由到专家层，随着模型增大，路由层本身成为计算瓶颈。Nemotron 3 Super 引入了 Latent MoE：token 在进入专家前先被投影到一个低秩压缩空间，专家计算在更小的维度完成，结果再投影回完整维度。在同等推理成本下，可调用的专家数量提升 4 倍。更细粒度的专业化成为可能——比如一个专家专门处理 Python 语法，另一个专门处理 SQL 逻辑，各自仅在被需要时才激活。 Hybrid Mamba-Transformer 让线性复杂度和精确召回共存。Nemotron 3 Super 的 backbone 交替使用三类层：Mamba-2 层处理序列主体，引入状态空间模型（SSM）的线性时间复杂度，使得 100 万 token 的上下文在实际部署中可行；Transformer 注意力层在关键深度插入，保证模型在「大海捞针」类任务中维持高精度召回。这个组合解决了一个长期矛盾：Mamba 等 SSM 在长序列上计算友好，但精确关联召回弱；Transformer 注意力精确但 O(n²) 成本高，混合架构让两种能力各司其职。 Multi-Token Prediction 一举两得。MTP 让模型在每个位置同时预测多个未来 token，训练阶段强制模型捕捉更长距离的依赖关系，产出的多 token 预测天然支持推测解码，减少自回归解码延迟。其他参数：原生 NVFP4 在 Blackwell 上推理速度提升 4 倍；超 120 万次环境 rollout 做多环境 RL 后训练；在 PinchBench 上得分 85.6%；权重、数据集、训练配方全部开源。 Nemotron 3 Super 真正值得关注的不是单一技术创新，而是「效率组合」的设计思路。Latent MoE 解决路由瓶颈，Hybrid backbone 解决上下文长度与召回质量的矛盾，MTP 同时改善训练和推理效率——这三层创新互相咬合，共同服务于同一个目标：让大参数模型在多智能体长程任务中跑得起、跑得快、跑得准。NVIDIA 的开源策略也在改变生态，Nemotron 3 Nano 开源后迅速成为 AI Agent 部署的标准基座，Super 以更大幅度提升效率，加上完整的训练配方，预计会复刻这一路径。