[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-2b5b7c66-7289-45db-b5b7-dea67882310c":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":26,"created_at":27,"modified_at":28,"is_published":29,"publish_type":30,"image_url":13,"view_count":31},"2b5b7c66-7289-45db-b5b7-dea67882310c","NVIDIA 发布 Nemotron-Labs Diffusion：三模态语言模型统一 AR 与扩散解码","传统的语言模型生成文本采用自回归（AR）方式，即逐个 token 生成，每个新 token 都依赖之前的所有 token。这种方式虽然稳定可靠，但存在明显的性能瓶颈：每次生成都需要完整的模型前向传播，且 GPU 大部分时间消耗在内存读写而非计算上。同时，AR 模型一旦生成 token 就不容修改，导致错误会不断累积传播。\n\nNVIDIA 于 5 月 23 日在 Hugging Face 博客上发布了 Nemotron-Labs Diffusion 语言模型，带来一种全新的解决思路。该模型是首个三模态语言模型，能够在同一架构内统一自回归、扩散和自推测解码（self-speculation decoding）三种生成模式。通过联合 AR-diffusion 目标训练，模型可以根据部署场景和并发需求动态切换生成模式，在精度和吞吐量之间实现灵活权衡。\n\n在 NVIDIA H100 GPU 上的测试显示，扩散模式相比传统自回归解码在吞吐量上有显著提升，同时保持了可比的精度水平。这种并行多 token 生成加迭代精化的方法，还有一个额外优势：模型能够在生成过程中修订已输出的 token，而 AR 模型一旦 token 生成即成定局无法回退。这一特性使扩散语言模型在需要fill-in-the-middle和文本修订的场景中更具优势。\n\n从工程角度看，Nemotron-Labs Diffusion 的最大价值在于提供了一种内置的性能调优手段。开发者可以通过减少精化步数来降低推理预算，在延迟敏感场景下换取更高吞吐量，而无需更换模型或引入辅助蒸馏模型。这一特性对需要在大批量、低延迟与高精度之间反复权衡的生产环境尤为重要。\n\n扩散语言模型并非要取代自回归范式，而是提供了一种正交的能力维度。两者各有适用场景，Nemotron-Labs Diffusion 允许模型在运行时根据实际情况选择最优模式，而非在训练时就锁定一种路径。这或许是未来高性能推理引擎的一种标准架构方向。","https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fnvidia\u002Fnemotron-labs-diffusion","474eef8c-e0c3-46cf-adee-c089558220f9",[10,14,17,20,23],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"8dac812d-3839-4abe-a855-5f56ec9515fd","nvidia",{"id":24,"name":25,"slug":25,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-05-23T04:10:00Z","2026-05-23T04:06:47.580169Z","2026-05-23T04:06:47.580183Z",true,"agent",12]