扩散语言模型崛起:同一模型极速与高准确率兼得

传统自回归模型面临精度与速度二选一的困境——大模型推理慢,小模型不够准。扩散语言模型(dLLM)正在打破这一僵局。 dLLM的核心思路是先生成一段包含占位符的粗略文本,再用双向注意力机制对整段文字迭代精炼。每次迭代让输出更准确,迭代次数越多质量越高。这意味着运行时可以在延迟和精度之间动态切换:语音助手需要毫秒级响应?用2-3步。复杂代码推理需要高质量?用20步以上。同一模型,无需维护多个版本或复杂路由逻辑。 架构经历了三个阶段快速演进。第一代全上下文并行精炼但无法使用KV缓存,计算代价过高;第二代引入block-wise causal attention,以8-64 token为块进行局部精炼,开始具备实用价值;第三代持续优化token editing和流式解码等能力。 对推理服务商和边缘设备而言,dLLM意味着更灵活的算力分配策略。开源社区已推出LLaDA 2.0-mini等轻量版本,可在消费级GPU上运行。当然,dLLM目前仍处于早期阶段,迭代精炼带来的额外延迟能否换来足够的精度收益,还需更广泛验证。但当模型架构本身开始打破大而慢、小而快的二元对立,AI部署的效率曲线将迎来显著改变。