自回归大语言模型(LLM)一次只生成一个token,推理速度慢、GPU利用率低。投机解码(Speculative Decoding)试图打破这一瓶颈——让小模型提出token,再由大模型并行验证。然而当前最优方法EAGLE-3仍然是自回归生成token,实际加速被限制在2-3倍。 **DFlash**由Jian Chen、Yesheng Liang、Zhijian Liu于2026年2月发表在arXiv(2602.06036),它用轻量级块扩散模型替代自回归Drafter,在单次前向传播中并行生成整块draft token,实现最高6倍无损加速,比EAGLE-3快2.5倍。 **核心技术**:扩散模型天然适合并行生成,DFlash的关键创新是对扩散Drafter使用从目标模型提取的上下文特征进行条件化,保证draft质量和高接受率。由于生成整块token的前向传播成本基本固定,DFlash将投机解码从一项优化技巧变成了可扩展的服务架构。 **实测数据**:Qwen3.5-27B在双RTX 3090上借助DFlash达到约65 tokens/秒。4月7日的演示视频在社交媒体疯传后,开源社区迅速跟进——SGLang已支持DFlash,vLLM集成进行中,llama.cpp也在讨论接入。 **个人评论**:对本地部署爱好者而言,65 tokens/秒的27B模型意味着交互式使用终于成为可能。更重要的是DFlash展示了扩散模型在推理加速领域的潜力——生成固定长度token块的成本与长度基本无关,这为未来的硬件利用率优化打开了新思路。训练配方即将开源,届时任何LLM都可以训练自己的DFlash Drafter。