扩散语言模型(dLLM)正在成为自回归(AR)范式之外的另一条主线,LLaDA、Dream、Mercury 等开源/商用模型已展示出不输 AR 的文本生成能力。但 dLLM 长期卡在两个工程痛点上:一是序列长度 L 上的 O(L³) 复杂度,二是和 KV Cache 难以兼容,再加上非自回归去噪步骤天然难以并行,长序列与实时场景的部署始终受限。 arXiv:2606.26120 提出的 Dynamic-dLLM 框架给出了一套训练自由(training-free)的 plug-and-play 解法。它由两个核心模块组成:Dynamic Cache Updating(DCU)按层级 token 的活跃度动态分配缓存更新预算,跳出全局统一