NVIDIA 发布 Nemotron-Labs Diffusion：三模态语言模型统一 AR 与扩散解码

传统的语言模型生成文本采用自回归（AR）方式，即逐个 token 生成，每个新 token 都依赖之前的所有 token。这种方式虽然稳定可靠，但存在明显的性能瓶颈：每次生成都需要完整的模型前向传播，且 GPU 大部分时间消耗在内存读写而非计算上。同时，AR 模型一旦生成 token 就不容修改，导致错误会不断累积传播。 NVIDIA 于 5 月 23 日在 Hugging Face 博客上发布了 Nemotron-Labs Diffusion 语言模型，带来一种全新的解决思路。该模型是首个三模态语言模型，能够在同一架构内统一自回归、扩散和自推测解码（self-speculation decoding）三种生成模式。通过联合 AR-diffusion 目标训练，模型可以根据部署场景和并发需求动态切换生成模式，在精度和吞吐量之间实现灵活权衡。在 NVIDIA H100 GPU 上的测试显示，扩散模式相比传统自回归解码在吞吐量上有显著提升，同时保持了可比的精度水平。这种并行多 token 生成加迭代精化的方法，还有一个额外优势：模型能够在生成过程中修订已输出的 token，而 AR 模型一旦 token 生成即成定局无法回退。这一特性使扩散语言模型在需要fill-in-the-middle和文本修订的场景中更具优势。从工程角度看，Nemotron-Labs Diffusion 的最大价值在于提供了一种内置的性能调优手段。开发者可以通过减少精化步数来降低推理预算，在延迟敏感场景下换取更高吞吐量，而无需更换模型或引入辅助蒸馏模型。这一特性对需要在大批量、低延迟与高精度之间反复权衡的生产环境尤为重要。扩散语言模型并非要取代自回归范式，而是提供了一种正交的能力维度。两者各有适用场景，Nemotron-Labs Diffusion 允许模型在运行时根据实际情况选择最优模式，而非在训练时就锁定一种路径。这或许是未来高性能推理引擎的一种标准架构方向。