DFlash：扩散式投机解码让TPU推理提速3倍

自回归LLM生成速度受限？草稿模型猜token仍是顺序计算瓶颈。UCSD联合Google在arXiv发表DFlash工作：将扩散模型的block生成思路引入投机解码，在TPU v5p上实现平均3.13倍加速，数学与代码任务最高达6倍，已集成进vLLM TPU生态。投机解码的软肋：传统投机解码用小模型猜、大模型验证，但草稿阶段本身仍需逐token生成——猜K个token就得跑K步自回归。模型越大、序列越长，这个嵌套瓶颈越明显。DFlash的核心是把扩散模型中一次性生成整块的思想迁移到token领域，草稿阶段并行生成一整块draft tokens，验证阶段以block为单位批量处理。工程上依赖双缓存架构、2的幂次填充优化CPU-TPU数据传输、状态同步防止序列长度膨胀。TPU v5p的K-Flat发现：验证成本对block size在16到1024之间几乎不变，提升草稿质量比增大block size更划算。相对EAGLE-3，DFlash实现2.29倍端到端加速，证明非自回归草稿生成在LLM推理中完全可行，有望成为大模型部署的标配优化技术。