EPIC 让扩散语言模型重获并行优势：CFG 约束解码推理时间压缩 67.5%

扩散语言模型（DLM）通过迭代去噪一次性更新多个 token 的方式，被视为自回归 LLM 之外最值得期待的一条路径。但当遇上代码、JSON、化学分子式这类需要严格语法约束的场景，传统 CFG 约束解码在 DLM 上却把并行优势蚕食殆尽——基线方案每步都要重新词法分析、构建并最小化 DFA、再做顺序 CFG 校验，最坏情况下比无约束解码慢上四倍。arXiv 上的 EPIC（2606.00722）把这套管线拆开重做。EPIC 的三把手术刀：第一，词法分析记忆化，把相似部分输出共享的词法单元缓存下来，避免每步从零解析。第二，抛弃 DFA，改用 Earley 风格图解析直接在词法图上判定 CFG 兼容性，省去 DFA 构建与最小化的开销，也让顺序校验器不再卡在部分掩码序列上。第三，放宽的相容子集选择——先在候选集中筛出彼此相容的 token 子集，再做精确验证，把一次并行提交多个 token 的能力还给扩散解码。三招叠加，在三个基准、四个模型上把推理时间最高压缩 67.5%，相对基线引入的额外开销最高减少 90.5%。DLM 这两年几乎都在卷如何让扩散生成更快——从 d3LLM 的蒸馏提速到 DFlash 的扩散式投机解码，核心战场都是 latency。但所有这些优化只要遇到 JSON schema、SQL、化学 SMILES 这类结构化约束，就会被 4 倍减速拉下水。EPIC 把扩散并行和结构化输出这两个长期冲突的目标重新对齐，意味着 DLM 在 Agent、自动化数据抽取、代码生成等企业级场景下，终于可以同时拿到并行解码的低延迟与语法严格性。这正是 DLM 从 demo 走向生产最需要的那一类补丁。