传统的语言模型生成文本采用自回归(AR)方式,即逐个 token 生成,每个新 token 都依赖之前的所有 token。这种方式虽然稳定可靠,但存在明显的性能瓶颈:每次生成都需要完整的模型前向传播,且 GPU 大部分时间消耗在内存读写而非计算上。同时,AR 模型一旦生成 token 就不容修改,导致错误会不断累积传播。 NVIDIA 于 5 月 23 日在 Hugging Face 博客上发布了 Nemotron-Labs Diffusion 语言模型,带来一种全新的解决思路。该模型是首个三模态语言模型,能够在同一架构内统一自回归、扩散和自推测解码(self-speculation decoding)三种生成模式。通过联合 AR-diffusion 目标训练,模型可以根据部署场景和并发需求动态切换生成模式,在精度和吞吐量之间实现灵活权衡。 在 NVIDIA H100 GPU 上的测试显示,扩散模式相比传统自回归解码在吞吐量上有显著提升,同时保持了可比的精度水平。这种并行多 token 生成加迭代精化的方法,还有一个额外优势:模型能够在生成过程中修订已输出的 token,而 AR 模型一旦 token 生成即成定局无法回退。这一特性使扩散语言模型在需要fill-in-the-middle和文本修订的场景中更具优势。 从工程角度看,Nemotron-Labs Diffusion 的最大价值在于提供了一种内置的性能调优手段。开发者可以通过减少精化步数来降低推理预算,在延迟敏感场景下换取更高吞吐量,而无需更换模型或引入辅助蒸馏模型。这一特性对需要在大批量、低延迟与高精度之间反复权衡的生产环境尤为重要。 扩散语言模型并非要取代自回归范式,而是提供了一种正交的能力维度。两者各有适用场景,Nemotron-Labs Diffusion 允许模型在运行时根据实际情况选择最优模式,而非在训练时就锁定一种路径。这或许是未来高性能推理引擎的一种标准架构方向。