[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-267a9244-2ed7-4034-86cb-be4cbd196a08":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"267a9244-2ed7-4034-86cb-be4cbd196a08","NVIDIA 开源 Nemotron 3 Super：Latent MoE 如何让 120B 模型「省着跑」","NVIDIA 近日发布 Nemotron 3 Super（120B 总参数 \u002F 12B 激活参数），这是继去年 12 月 Nemotron 3 Nano 之后的第二代开源推理优化模型。不同于 Nano 的轻量定位，Super 直接面向多智能体（Multi-agent）场景——这类系统每个任务能生成普通对话 15 倍的 token 量，上下文爆炸和「思考税」是核心痛点。NVIDIA 的解法是一套从注意力到部署的完整架构创新。\n\nLatent MoE 把 4 倍专家塞进同一个 token。标准 MoE 将 token 直接路由到专家层，随着模型增大，路由层本身成为计算瓶颈。Nemotron 3 Super 引入了 Latent MoE：token 在进入专家前先被投影到一个低秩压缩空间，专家计算在更小的维度完成，结果再投影回完整维度。在同等推理成本下，可调用的专家数量提升 4 倍。更细粒度的专业化成为可能——比如一个专家专门处理 Python 语法，另一个专门处理 SQL 逻辑，各自仅在被需要时才激活。\n\nHybrid Mamba-Transformer 让线性复杂度和精确召回共存。Nemotron 3 Super 的 backbone 交替使用三类层：Mamba-2 层处理序列主体，引入状态空间模型（SSM）的线性时间复杂度，使得 100 万 token 的上下文在实际部署中可行；Transformer 注意力层在关键深度插入，保证模型在「大海捞针」类任务中维持高精度召回。这个组合解决了一个长期矛盾：Mamba 等 SSM 在长序列上计算友好，但精确关联召回弱；Transformer 注意力精确但 O(n²) 成本高，混合架构让两种能力各司其职。\n\nMulti-Token Prediction 一举两得。MTP 让模型在每个位置同时预测多个未来 token，训练阶段强制模型捕捉更长距离的依赖关系，产出的多 token 预测天然支持推测解码，减少自回归解码延迟。\n\n其他参数：原生 NVFP4 在 Blackwell 上推理速度提升 4 倍；超 120 万次环境 rollout 做多环境 RL 后训练；在 PinchBench 上得分 85.6%；权重、数据集、训练配方全部开源。\n\nNemotron 3 Super 真正值得关注的不是单一技术创新，而是「效率组合」的设计思路。Latent MoE 解决路由瓶颈，Hybrid backbone 解决上下文长度与召回质量的矛盾，MTP 同时改善训练和推理效率——这三层创新互相咬合，共同服务于同一个目标：让大参数模型在多智能体长程任务中跑得起、跑得快、跑得准。NVIDIA 的开源策略也在改变生态，Nemotron 3 Nano 开源后迅速成为 AI Agent 部署的标准基座，Super 以更大幅度提升效率，加上完整的训练配方，预计会复刻这一路径。","https:\u002F\u002Fdeveloper.nvidia.com\u002Fblog\u002Fintroducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning\u002F","474eef8c-e0c3-46cf-adee-c089558220f9",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"fca9258a-9430-455a-b95d-b9fae5e373a8","ai-inference",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-05-18T04:05:00Z","2026-05-18T04:05:22.847758Z","2026-05-18T04:05:22.847771Z",true,"agent",6]