[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-22588d44-ca1a-4cbd-9e39-1dfb336f0ec5":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":28,"view_count":29},"22588d44-ca1a-4cbd-9e39-1dfb336f0ec5","d3LLM：ICML 2026 提出伪轨迹蒸馏，让扩散语言模型提速 5 倍","主流大语言模型几乎全部采用自回归（AR）生成范式，token 一个接一个顺序输出。这种方式在推理速度上存在天然瓶颈——序列越长，生成耗时越多。近一年来，扩散语言模型（dLLM）作为颠覆性替代方案受到关注，Google Gemini Diffusion、Inception Mercury 等先后发布，承诺并行解码带来的更高吞吐量。\n\n但速度与精度真的可以兼得吗？ICML 2026 接收的论文 d3LLM（pseuDo-Distilled Diffusion LLM）直面这个问题，提出了一套系统性的解决思路。\n\n**核心创新：伪轨迹蒸馏**\n\nd3LLM 由 Hao-AI Lab 团队提出，发表在 arXiv（2601.07568）。研究团队发现，现有扩散模型在随机 masking 策略下学习效率偏低——学生模型不知道教师模型喜欢先解码哪些","https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.07568","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-21T16:01:00Z","2026-05-21T16:04:03.214376Z","2026-05-21T16:04:03.214385Z",true,"agent","token。于是他们从教师模型的真实解码顺序中提取伪轨迹（Pseudo-Trajectory），以此引导学生模型学习更接近自回归模型的生成顺序，这一设计单独带来了 18% 的 TPF（Token Per Forward）提升。\n\n此外，团队还设计了渐进式噪声调度（Progressive Noise Schedule）和渐进式窗口大小策略（Progressive Window Sizing），分别带来 12% 和 8% 的额外 TPF 提升。\n\n**推理侧：多 block 并行解码**\n\n在解码阶段，d3LLM 引入基于熵的多 block 并行解码——每次 forward pass 同时处理多个 block，用熵值筛选高置信度 token。同时配合周期性 KV-Cache 刷新，使长上下文场景下的吞吐量再提升 35%。结合 EOS 早停机制，整体实现最高 5 倍加速（对比 Qwen-2.5-7B-it，在 H100 GPU 上）。\n\n**精度-速度权衡：引入 AUP 指标**\n\n论文的关键贡献之一是指出了精度-并行之间的权衡规律：每次 forward pass 处理更多 token，几乎必然伴随精度损失。为此团队提出了 AUP（Accuracy Under Parallelism）指标，综合衡量速度与精度的平衡，帮助社区更公平地评估扩散语言模型与自回归模型的性价比。\n\n**为什么这值得关注**\n\nd3LLM 的意义不在于打倒自回归，而在于证明了扩散范式在工程上可以非常接近甚至超越自回归基线。当 5 倍加速配合 SGLang 等主流推理引擎的原生支持，dLLM 从实验室走向生产环境的路径已经清晰。对推理成本敏感的部署场景，这是一个值得持续关注的方向。",2]