Nemotron-Labs-TwoTower:NVIDIA 把 AR 上下文与扩散去噪拆成两座塔,30B 基座上 2.42× 推理吞吐

NVIDIA 在 2026 年 7 月 1 日开源了 Nemotron-Labs-TwoTower,把「扩散语言模型」从单网络扛两职的旧设计里拆了出来。论文挂在 arXiv(2606.26493),模型权重与推理代码同步发在 Hugging Face。这是 NVIDIA Nemotron 系列第一次把 AR 解码与扩散解码拆成两个独立子网,而非让同一套参数兼顾两件事。 TwoTower 的核心思想是「角色解耦」:一座 AR 上下文塔保持冻结,以因果方式处理 prompt 和已提交的 token,持续维护 KV cache 与 Mamba-2 状态;另一座扩散去噪塔是唯一被训练的部分,只对当前 block 内的 [MASK] 做并行去噪,内部用 block 内双向注意力、对历史干净 block 保持因果。两座塔按层对齐、逐层 cross-attention——去噪塔第 i 层直接读取上下文塔第 i 层的表示,这比只把最后一层隐藏态广播过去的设计更细粒度。配合 Mamba-2 初始状态从上下文塔 seed、adaLN-single 时间步调制等改造,去噪塔只新增约 1.5M 参数。 基座是 Nemotron-3-Nano-30B-A3B(23 Mamba-2 + 6 自注意力 + 23 MoE 层,128 路由专家选 6 + 2 共享),每座塔各 52 层,合在一起约 60B 总参数、单塔约 3B 激活。BF16 双 H100 上、block size 16、confidence unmasking 阈值 γ=0.8 时,TwoTower 在 MMLU 78.24、MMLU-Pro 60.93、GSM8K 90.14、MATH-500 80.60、HumanEval 75.58 上基本把 AR 基线(78.56 / 62.59 / 92.49 / 84.40 / 79.27)拉到 98.7%,wall-clock 吞吐跑出 2.42×。 值得注意的几个工程选择:去噪塔只训了约 2.1T token,而基座预训练用了 25T,这说明「给现成 AR 模型加一个并行解码头」是真正省钱的路径;同一个 checkpoint 还暴露 generate_mask_diffusion / generate_mock_ar / generate_ar 三种推理模式,显存允许时直接退回 AR,这条 fallback 路径比单点优化更让生产侧放心。 TwoTower 的意义在于把「dLLM 能不能 scale up」这个长期待解的问题,转换成「能不能给已训好的强 AR 模型廉价地加一个并行解码头」——这是 2026 年下半年值得追踪的工程化范式:开源 AR 社区(DeepSeek、Qwen、Mistral)与 NVIDIA 自己的 Nemotron-3 系列,都能直接受益于这种「冻结 + 单塔训练」的混合解码路线。