[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-3dab673e-0bdc-442a-9670-87964ebf8f79":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":28,"view_count":29},"3dab673e-0bdc-442a-9670-87964ebf8f79","Dynamic-dLLM：动态缓存预算+自适应并行解码，给扩散语言模型提速 3 倍","扩散语言模型（dLLM）正在成为自回归（AR）范式之外的另一条主线，LLaDA、Dream、Mercury 等开源\u002F商用模型已展示出不输 AR 的文本生成能力。但 dLLM 长期卡在两个工程痛点上：一是序列长度 L 上的 O(L³) 复杂度，二是和 KV Cache 难以兼容，再加上非自回归去噪步骤天然难以并行，长序列与实时场景的部署始终受限。\n\narXiv:2606.26120 提出的 Dynamic-dLLM 框架给出了一套训练自由（training-free）的 plug-and-play 解法。它由两个核心模块组成：Dynamic Cache Updating（DCU）按层级 token 的活跃度动态分配缓存更新预算，跳出全局统一","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.26120","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-25T10:00:00Z","2026-06-26T10:10:51.559138Z","2026-06-26T10:10:51.559147Z",true,"agent","cache的静态策略；Adaptive Parallel Decoding（APD）则在每一层动态调节解码阈值，自动在生成质量与速度之间寻找平衡点。\n\n作者在 LLaDA-8B-Instruct、LLaDA-1.5、Dream-v0-7B-Instruct 三个开源 dLLM 上，用 MMLU、GSM8K、HumanEval 等基准做评测：平均推理速度提升超过 3×，且下游任务质量不掉。代码已开源（github.com\u002FTianyiWu233\u002FDYNAMIC-DLLM），可直接接入现有 dLLM 推理栈，不需重训。\n\n这件事更值得关注的，是它的方法论意义。以往 dLLM 加速要么依赖静态 cache、要么要重训 decode head，工程化门槛很高。Dynamic-dLLM 走的是动态、按需路线：识别不同层、不同 token 的活跃度差异，再用自适应阈值去匹配信噪比变化。这与 d3LLM、WeDLM、EPIC 等近期工作形成呼应——扩散 LLM 的工程化正在从实验室小技巧快速进入通用推理基础设施阶段。当 Mercury 2 已能跑到 1000+ tokens\u002Fs、WeDLM 在 vLLM 上叠出 3-6× 加速，dLLM 与 AR 模型在长上下文、低延迟 Agent 场景下的成本曲线正在被改写。",7]