DiffusionGemma 可解释性悖论：Google 把黑箱深度从 28.6× 压回 1.1×

Google DeepMind 与 MATS 团队（Engels、McDougall、Nanda 等）在 arXiv 2606.20560 发表 26 页长文《How Transparent is DiffusionGemma?》，首次系统拆解扩散语言模型的可解释性。论文把"推理透明度"拆成变量与算法两条测度，对 DiffusionGemma 26B-A4B 做端到端评估。正面：不做干预时，模型的"不透明串行深度"是自回归 Gemma 4 的 28.6 倍；只要在去噪步骤间插入可解释 token 瓶颈做映射，下游任务零掉点，黑箱深度骤降到 1.1 倍，与 Gemma 4 持平。反面：算法层是新麻烦。画布上每个 token 每步都可能改写，模型能实现"分布式算法"。研究者识别出三种 AR 模型不会出现的扩散专属现象——非时序推理、token/序列涂抹、中段上下文推理，外部监控者无法再按顺序读 diff。最终 monitorability 测试给出相对正面结论：DiffusionGemma 与 Gemma 4 在外部监督场景下表现持平，对扩散模型安全部署有直接参考价值。