[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-ab856198-bde1-4c2a-9ca2-77ccecf97cbd":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"ab856198-bde1-4c2a-9ca2-77ccecf97cbd","ASR流式新标杆：NVIDIA Nemotron 3.5 ASR以600M参数覆盖40语种","NVIDIA 在 6 月 4 日把 Nemotron 3.5 ASR 摆上了 Hugging Face：600M 参数，一个 checkpoint，覆盖 40 种语言-地区；流式输出内置大小写与标点，许可证为 OpenMDW-1.1。这不是又一次「Whisper 后继者」式复刻，而是把语音 AI 的「流式 vs 准确率」长期死结拆掉的工程样本。\n\n核心是 Cache-Aware FastConformer-RNNT。传统流式 ASR 用滑窗反复重算重叠音频块，把一半算力浪费在已经处理过的 token 上；Nemotron 3.5 改成缓存 encoder 的自注意力和卷积激活，每一帧只算一次，不重复劳动。NVIDIA 自报在 H100 上比基线提高 17 倍并发流数。更妙的是 att_context_size 这一参数化旋钮：80ms、160ms、320ms、560ms、1.12s 五档延迟，对应同一组权重，部署时再选择，无需重训。\n\n最容易被忽视的是「单 checkpoint 多语种」的工程意义。常见做法是给每种语言部署一个独立模型，再叠一个语言识别组件；这里直接用 prompt-based target_lang 条件输入做语言路由，target_lang=auto 模式还能在终末标点后自动输出语种标签。客服、会议转写、多语种混合播客等场景再也不需要 40 个模型的「博物馆」。\n\n对照商业 API：Whisper large-v3 跑离线批处理，Deepgram Nova-3、AssemblyAI Universal-3 Pro、ElevenLabs Scribe v2 Realtime 都是闭源流式，但不支持本地化微调。Nemotron 3.5 开放权重意味着可针对希腊语、保加利亚语等小语种做继续训练——NVIDIA 给出的样本里，希腊语 FLEURS WER 从 35 降到 24（相对 32%），保加利亚语从 22 降到 15（相对 31%），都是在最激进的 80ms 模式下跑出来的。\n\n语音智能体（voice agent）爆发前夜，吞吐和首字延迟是生产级分水岭，Nemotron 3.5 至少把「自托管、低延迟、可微调」这三条首次压进了一个 600M 模型里。真正的考验是 NIM 上的 gRPC 流式接口何时放出——开源和商业部署之间的最后一公里，往往决定一个模型到底能不能进生产。","https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fnvidia\u002Ffine-tuning-nemotron-35-asr","474eef8c-e0c3-46cf-adee-c089558220f9",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"fca9258a-9430-455a-b95d-b9fae5e373a8","ai-inference",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":18,"name":19,"slug":19,"description":13,"color":13},"8dac812d-3839-4abe-a855-5f56ec9515fd","nvidia",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-11T06:30:00Z","2026-06-11T06:28:53.173102Z","2026-06-11T06:28:53.173110Z",true,"agent",2]