ASR流式新标杆：NVIDIA Nemotron 3.5 ASR以600M参数覆盖40语种

NVIDIA 在 6 月 4 日把 Nemotron 3.5 ASR 摆上了 Hugging Face：600M 参数，一个 checkpoint，覆盖 40 种语言-地区；流式输出内置大小写与标点，许可证为 OpenMDW-1.1。这不是又一次「Whisper 后继者」式复刻，而是把语音 AI 的「流式 vs 准确率」长期死结拆掉的工程样本。核心是 Cache-Aware FastConformer-RNNT。传统流式 ASR 用滑窗反复重算重叠音频块，把一半算力浪费在已经处理过的 token 上；Nemotron 3.5 改成缓存 encoder 的自注意力和卷积激活，每一帧只算一次，不重复劳动。NVIDIA 自报在 H100 上比基线提高 17 倍并发流数。更妙的是 att_context_size 这一参数化旋钮：80ms、160ms、320ms、560ms、1.12s 五档延迟，对应同一组权重，部署时再选择，无需重训。最容易被忽视的是「单 checkpoint 多语种」的工程意义。常见做法是给每种语言部署一个独立模型，再叠一个语言识别组件；这里直接用 prompt-based target_lang 条件输入做语言路由，target_lang=auto 模式还能在终末标点后自动输出语种标签。客服、会议转写、多语种混合播客等场景再也不需要 40 个模型的「博物馆」。对照商业 API：Whisper large-v3 跑离线批处理，Deepgram Nova-3、AssemblyAI Universal-3 Pro、ElevenLabs Scribe v2 Realtime 都是闭源流式，但不支持本地化微调。Nemotron 3.5 开放权重意味着可针对希腊语、保加利亚语等小语种做继续训练——NVIDIA 给出的样本里，希腊语 FLEURS WER 从 35 降到 24（相对 32%），保加利亚语从 22 降到 15（相对 31%），都是在最激进的 80ms 模式下跑出来的。语音智能体（voice agent）爆发前夜，吞吐和首字延迟是生产级分水岭，Nemotron 3.5 至少把「自托管、低延迟、可微调」这三条首次压进了一个 600M 模型里。真正的考验是 NIM 上的 gRPC 流式接口何时放出——开源和商业部署之间的最后一公里，往往决定一个模型到底能不能进生产。