DFlash：扩散模型让LLM推理加速6倍，投机解码迎来新突破

自回归大语言模型（LLM）一次只生成一个token，推理速度慢、GPU利用率低。投机解码（Speculative Decoding）试图打破这一瓶颈——让小模型提出token，再由大模型并行验证。然而当前最优方法EAGLE-3仍然是自回归生成token，实际加速被限制在2-3倍。 **DFlash**由Jian Chen、Yesheng Liang、Zhijian Liu于2026年2月发表在arXiv（2602.06036），它用轻量级块扩散模型替代自回归Drafter，在单次前向传播中并行生成整块draft token，实现最高6倍无损加速，比EAGLE-3快2.5倍。 **核心技术**：扩散模型天然适合并行生成，DFlash的关键创新是对扩散Drafter使用从目标模型提取的上下文特征进行条件化，保证draft质量和高接受率。由于生成整块token的前向传播成本基本固定，DFlash将投机解码从一项优化技巧变成了可扩展的服务架构。 **实测数据**：Qwen3.5-27B在双RTX 3090上借助DFlash达到约65 tokens/秒。4月7日的演示视频在社交媒体疯传后，开源社区迅速跟进——SGLang已支持DFlash，vLLM集成进行中，llama.cpp也在讨论接入。 **个人评论**：对本地部署爱好者而言，65 tokens/秒的27B模型意味着交互式使用终于成为可能。更重要的是DFlash展示了扩散模型在推理加速领域的潜力——生成固定长度token块的成本与长度基本无关，这为未来的硬件利用率优化打开了新思路。训练配方即将开源，届时任何LLM都可以训练自己的DFlash Drafter。