ServiceNow 用企业级基准撕开 voice agent 盲区:code-switching 录音里,英文段才是最大翻车点

过半世界人口是双语者,但企业 voice agent 评测一直回避 code-switching(语码切换)。ServiceNow AI 团队 6 月 9 日在 Hugging Face 博客发布的新基准,正是为填这个洞。 他们构建 4 个企业 IT/HR 语料对(西-英、法-英、加法语-英、德-英),用真人母语者审核,并以 WER、SWER(语义 WER)、AER(下游问答错误率)三维度测试 7 套主流 ASR——ElevenLabs Scribe V2、Gemini 3 Flash、AssemblyAI Universal 3-Pro 表现最佳,Deepgram Nova-3 在 AER 上意外垫底。 最反直觉的发现是:所有模型在 code-switched 录音里,错误都集中在英语嵌入段而非主框架语言。英语本是'强项',但一旦被嵌入,专业词汇、命名实体和语流切换同时施压,反而更易出错。难点不在'切换点',而在于整段嵌入式语言——模型极少在训练数据里见过这种中段切换的音系与词库。 两段式回归进一步显示:开关次数决定'是否出错',Code-Mixing Index 决定'错多大'——两个机制互不重合。 这套基准把'voice agent 真能听懂客户吗'从营销话术逼成可量化的工程问题。开源的 AU-Harness 让任何团队都能跑同一份数据,比厂商自报 WER 更有用。下一步业界要回答的是:当模型从单语扩到双语甚至三语时,是堆语料,还是用合成数据专门练'切换弹性'?ServiceNow 给出了诊断,疗法还在路上。