DiffusionGemma 可解释性悖论:Google 把黑箱深度从 28.6× 压回 1.1×

Google DeepMind 与 MATS 团队(Engels、McDougall、Nanda 等)在 arXiv 2606.20560 发表 26 页长文《How Transparent is DiffusionGemma?》,首次系统拆解扩散语言模型的可解释性。论文把"推理透明度"拆成变量与算法两条测度,对 DiffusionGemma 26B-A4B 做端到端评估。 正面:不做干预时,模型的"不透明串行深度"是自回归 Gemma 4 的 28.6 倍;只要在去噪步骤间插入可解释 token 瓶颈做映射,下游任务零掉点,黑箱深度骤降到 1.1 倍,与 Gemma 4 持平。 反面:算法层是新麻烦。画布上每个 token 每步都可能改写,模型能实现"分布式算法"。研究者识别出三种 AR 模型不会出现的扩散专属现象——非时序推理、token/序列涂抹、中段上下文推理,外部监控者无法再按顺序读 diff。 最终 monitorability 测试给出相对正面结论:DiffusionGemma 与 Gemma 4 在外部监督场景下表现持平,对扩散模型安全部署有直接参考价值。