Dynamic-dLLM：动态缓存预算+自适应并行解码，给扩散语言模型提速 3 倍

扩散语言模型（dLLM）正在成为自回归（AR）范式之外的另一条主线，LLaDA、Dream、Mercury 等开源/商用模型已展示出不输 AR 的文本生成能力。但 dLLM 长期卡在两个工程痛点上：一是序列长度 L 上的 O(L³) 复杂度，二是和 KV Cache 难以兼容，再加上非自回归去噪步骤天然难以并行，长序列与实时场景的部署始终受限。 arXiv:2606.26120 提出的 Dynamic-dLLM 框架给出了一套训练自由（training-free）的 plug-and-play 解法。它由两个核心模块组成：Dynamic Cache Updating（DCU）按层级 token 的活跃度动态分配缓存更新预算，跳出全局统一