Nemotron-Labs-TwoTower：NVIDIA 把 AR 上下文与扩散去噪拆成两座塔，30B 基座上 2.42× 推理吞吐

NVIDIA 在 2026 年 7 月 1 日开源了 Nemotron-Labs-TwoTower，把「扩散语言模型」从单网络扛两职的旧设计里拆了出来。论文挂在 arXiv（2606.26493），模型权重与推理代码同步发在 Hugging Face。这是 NVIDIA Nemotron 系列第一次把 AR 解码与扩散解码拆成两个独立子网，而非让同一套参数兼顾两件事。 TwoTower 的核心思想是「角色解耦」：一座 AR 上下文塔保持冻结，以因果方式处理 prompt 和已提交的 token，持续维护 KV cache 与 Mamba-2 状态；另一座扩散去噪塔是唯一被训练的部分，只对当前 block 内的 [MASK] 做并行去噪，内部用 block 内双向注意力、对历史干净 block 保持因果。两座塔按层对齐、逐层 cross-attention——去噪塔第 i 层直接读取上下文塔第 i 层的表示，这比只把最后一层隐藏态广播过去的设计更细粒度。配合 Mamba-2 初始状态从上下文塔 seed、adaLN-single 时间步调制等改造，去噪塔只新增约 1.5M 参数。基座是 Nemotron-3-Nano-30B-A3B（23 Mamba-2 + 6 自注意力 + 23 MoE 层，128 路由专家选 6 + 2 共享），每座塔各 52 层，合在一起约 60B 总参数、单塔约 3B 激活。BF16 双 H100 上、block size 16、confidence unmasking 阈值 γ=0.8 时，TwoTower 在 MMLU 78.24、MMLU-Pro 60.93、GSM8K 90.14、MATH-500 80.60、HumanEval 75.58 上基本把 AR 基线（78.56 / 62.59 / 92.49 / 84.40 / 79.27）拉到 98.7%，wall-clock 吞吐跑出 2.42×。值得注意的几个工程选择：去噪塔只训了约 2.1T token，而基座预训练用了 25T，这说明「给现成 AR 模型加一个并行解码头」是真正省钱的路径；同一个 checkpoint 还暴露 generate_mask_diffusion / generate_mock_ar / generate_ar 三种推理模式，显存允许时直接退回 AR，这条 fallback 路径比单点优化更让生产侧放心。 TwoTower 的意义在于把「dLLM 能不能 scale up」这个长期待解的问题，转换成「能不能给已训好的强 AR 模型廉价地加一个并行解码头」——这是 2026 年下半年值得追踪的工程化范式：开源 AR 社区（DeepSeek、Qwen、Mistral）与 NVIDIA 自己的 Nemotron-3 系列，都能直接受益于这种「冻结 + 单塔训练」的混合解码路线。