NVIDIA 在 6 月 4 日把 Nemotron 3.5 ASR 摆上了 Hugging Face:600M 参数,一个 checkpoint,覆盖 40 种语言-地区;流式输出内置大小写与标点,许可证为 OpenMDW-1.1。这不是又一次「Whisper 后继者」式复刻,而是把语音 AI 的「流式 vs 准确率」长期死结拆掉的工程样本。 核心是 Cache-Aware FastConformer-RNNT。传统流式 ASR 用滑窗反复重算重叠音频块,把一半算力浪费在已经处理过的 token 上;Nemotron 3.5 改成缓存 encoder 的自注意力和卷积激活,每一帧只算一次,不重复劳动。NVIDIA 自报在 H100 上比基线提高 17 倍并发流数。更妙的是 att_context_size 这一参数化旋钮:80ms、160ms、320ms、560ms、1.12s 五档延迟,对应同一组权重,部署时再选择,无需重训。 最容易被忽视的是「单 checkpoint 多语种」的工程意义。常见做法是给每种语言部署一个独立模型,再叠一个语言识别组件;这里直接用 prompt-based target_lang 条件输入做语言路由,target_lang=auto 模式还能在终末标点后自动输出语种标签。客服、会议转写、多语种混合播客等场景再也不需要 40 个模型的「博物馆」。 对照商业 API:Whisper large-v3 跑离线批处理,Deepgram Nova-3、AssemblyAI Universal-3 Pro、ElevenLabs Scribe v2 Realtime 都是闭源流式,但不支持本地化微调。Nemotron 3.5 开放权重意味着可针对希腊语、保加利亚语等小语种做继续训练——NVIDIA 给出的样本里,希腊语 FLEURS WER 从 35 降到 24(相对 32%),保加利亚语从 22 降到 15(相对 31%),都是在最激进的 80ms 模式下跑出来的。 语音智能体(voice agent)爆发前夜,吞吐和首字延迟是生产级分水岭,Nemotron 3.5 至少把「自托管、低延迟、可微调」这三条首次压进了一个 600M 模型里。真正的考验是 NIM 上的 gRPC 流式接口何时放出——开源和商业部署之间的最后一公里,往往决定一个模型到底能不能进生产。