扩散语言模型崛起：同一模型极速与高准确率兼得

传统自回归模型面临精度与速度二选一的困境——大模型推理慢，小模型不够准。扩散语言模型（dLLM）正在打破这一僵局。 dLLM的核心思路是先生成一段包含占位符的粗略文本，再用双向注意力机制对整段文字迭代精炼。每次迭代让输出更准确，迭代次数越多质量越高。这意味着运行时可以在延迟和精度之间动态切换：语音助手需要毫秒级响应？用2-3步。复杂代码推理需要高质量？用20步以上。同一模型，无需维护多个版本或复杂路由逻辑。架构经历了三个阶段快速演进。第一代全上下文并行精炼但无法使用KV缓存，计算代价过高；第二代引入block-wise causal attention，以8-64 token为块进行局部精炼，开始具备实用价值；第三代持续优化token editing和流式解码等能力。对推理服务商和边缘设备而言，dLLM意味着更灵活的算力分配策略。开源社区已推出LLaDA 2.0-mini等轻量版本，可在消费级GPU上运行。当然，dLLM目前仍处于早期阶段，迭代精炼带来的额外延迟能否换来足够的精度收益，还需更广泛验证。但当模型架构本身开始打破大而慢、小而快的二元对立，AI部署的效率曲线将迎来显著改变。