同声传译是应用AI领域公认的技术难题——翻译必须在说话者未完成句子前就开始,每多一秒延迟都会打破实时沟通的幻觉。阿里Qwen团队在Qwen3.5-LiveTranslate-Flash中再次取得实质突破:端到端延迟压至2.8秒,输入语言覆盖从18种扩充至60种,语音输出覆盖29种,并新增实时语音克隆能力。 2.8秒意味着什么?以商务会议同传为参照,联合国专业译员平均反应时间约2-3秒,2.8秒已达到专业同传水准。对于跨国会议、多语种直播或国际客服场景,这个延迟已可接受。 真正的架构变化在于视觉信息被提升为一等公民。Qwen3.5-LiveTranslate不再只处理音频,而是并行分析画面中的唇动、肢体语言和屏幕文字。当音频因嘈杂环境而模糊时,视觉信号填补空白,使翻译决策更稳定。这在现实场景中意义重大——现实中的会议、展会、嘈杂大厅,音频质量从来无法保证。 实时语音克隆同样值得关注。传统系统用合成音色替换原说话者声音,Qwen3.5-LiveTranslate则是从一句话中提取说话者声纹特征,在翻译输出中保留原始音色。这一能力在多语种直播或国际通话中至关重要,它让跨语言沟通保留了该有的人性化质感。 此外,Qwen3.5-LiveTranslate支持运行时注入专业术语表——品牌名、医疗术语、法律条款均可配置,模型在对应场景中翻译准确率显著提升。这是当前大多数通用翻译API不具备的能力,对于医学、法律、金融等领域的商业部署意义重大。Qwen3.5-LiveTranslate-Flash并非 Demo,而是一个认真解决同声传译问题的工程化方案。