扩散语言模型(DLM)通过迭代去噪一次性更新多个 token 的方式,被视为自回归 LLM 之外最值得期待的一条路径。但当遇上代码、JSON、化学分子式这类需要严格语法约束的场景,传统 CFG 约束解码在 DLM 上却把并行优势蚕食殆尽——基线方案每步都要重新词法分析、构建并最小化 DFA、再做顺序 CFG 校验,最坏情况下比无约束解码慢上四倍。arXiv 上的 EPIC(2606.00722)把这套管线拆开重做。EPIC 的三把手术刀:第一,词法分析记忆化,把相似部分输出共享的词法单元缓存下来,避免每步从零解析。第二,抛弃 DFA,改用 Earley 风格图解析直接在词法图上判定 CFG 兼容性,省去 DFA 构建与最小化的开销,也让顺序校验器不再卡在部分掩码序列上。第三,放宽的相容子集选择——先在候选集中筛出彼此相容的 token 子集,再做精确验证,把一次并行提交多个 token 的能力还给扩散解码。三招叠加,在三个基准、四个模型上把推理时间最高压缩 67.5%,相对基线引入的额外开销最高减少 90.5%。DLM 这两年几乎都在卷如何让扩散生成更快——从 d3LLM 的蒸馏提速到 DFlash 的扩散式投机解码,核心战场都是 latency。但所有这些优化只要遇到 JSON schema、SQL、化学 SMILES 这类结构化约束,就会被 4 倍减速拉下水。EPIC 把扩散并行和结构化输出这两个长期冲突的目标重新对齐,意味着 DLM 在 Agent、自动化数据抽取、代码生成等企业级场景下,终于可以同时拿到并行解码的低延迟与语法严格性。这正是 DLM 从 demo 走向生产最需要的那一类补丁。