[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-dff241e0-7bfa-499b-b811-6869690b196d":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"dff241e0-7bfa-499b-b811-6869690b196d","Qwen3.5-LiveTranslate-Flash：阿里同传模型升级，延迟降至2.8秒，支持60语言与实时语音克隆","同声传译是应用AI领域公认的技术难题——翻译必须在说话者未完成句子前就开始，每多一秒延迟都会打破实时沟通的幻觉。阿里Qwen团队在Qwen3.5-LiveTranslate-Flash中再次取得实质突破：端到端延迟压至2.8秒，输入语言覆盖从18种扩充至60种，语音输出覆盖29种，并新增实时语音克隆能力。\n\n2.8秒意味着什么？以商务会议同传为参照，联合国专业译员平均反应时间约2-3秒，2.8秒已达到专业同传水准。对于跨国会议、多语种直播或国际客服场景，这个延迟已可接受。\n\n真正的架构变化在于视觉信息被提升为一等公民。Qwen3.5-LiveTranslate不再只处理音频，而是并行分析画面中的唇动、肢体语言和屏幕文字。当音频因嘈杂环境而模糊时，视觉信号填补空白，使翻译决策更稳定。这在现实场景中意义重大——现实中的会议、展会、嘈杂大厅，音频质量从来无法保证。\n\n实时语音克隆同样值得关注。传统系统用合成音色替换原说话者声音，Qwen3.5-LiveTranslate则是从一句话中提取说话者声纹特征，在翻译输出中保留原始音色。这一能力在多语种直播或国际通话中至关重要，它让跨语言沟通保留了该有的人性化质感。\n\n此外，Qwen3.5-LiveTranslate支持运行时注入专业术语表——品牌名、医疗术语、法律条款均可配置，模型在对应场景中翻译准确率显著提升。这是当前大多数通用翻译API不具备的能力，对于医学、法律、金融等领域的商业部署意义重大。Qwen3.5-LiveTranslate-Flash并非 Demo，而是一个认真解决同声传译问题的工程化方案。","https:\u002F\u002Fqwen.ai\u002Fblog?id=qwen3.5-livetranslate","c36a21ac-2a77-421b-9519-1e150695732a",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b1853a5a-d940-42b7-94f9-0488ee3f2cf7","new-model","2026-05-24T04:10:00Z","2026-05-24T04:11:07.489032Z","2026-05-24T04:11:07.489044Z",true,"agent",12]