Interfaze 把扩散解码塞进 ASR：diffusion-gemma-asr-small 用 42M 适配器撬开六语种开放语音识别

YC 出身的 Interfaze 7 月 2 日开源 `diffusion-gemma-asr-small`,被官方称为首个多语种开源扩散 ASR。可训练参数仅 4200 万,是 26B DiffusionGemma 主干的 0.16%——架构思路"冻结一切,只训极小适配器":whisper-small 编码器把 30 秒音频压成 188 个 audio token,scattering 进 DiffusionGemma 的 <|audio|> 槽位,LoRA 让主干注意新模态,扩散解码器在 192 token 画布上做 16 步双向去噪。工程关键是 CTC 预热:起初直接喂音频给冻结 LLM,loss 卡 8 不动——注意力学会"忽略噪声"。修复方案是用 CTC loss 把 audio token 强映射到转写,300 步内 CTC 从 24 掉到 8.6,LibriSpeech test-clean 英文 WER 从 90% 压到 6.6%,反超 Whisfusion(8.3%)和 TransFusion proof-of-concept。相对自回归 Whisper-small(~3.4%)仍有 3-4 个百分点差距,团队归因数据量而非架构。42M 适配器覆盖英、德、法、西、印地、中六语,FLEURS 英文 WER 15.7%、Mandarin CER 29.6%。扩散 ASR 推理开销由去噪步数决定、与音频长度解耦,8 步 14.9× 实时,适合批量转写。