[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-e4497b0e-8295-46e8-b395-5f29a19ff26c":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"e4497b0e-8295-46e8-b395-5f29a19ff26c","Gemini 3.5 Live Translate：当语音翻译告别「回合制」","6月9日,Google 正式推出 Gemini 3.5 Live Translate,一款实时语音到语音翻译的音频模型。它脱胎于 Gemini 3 Pro 架构,音频输入支持 128K token 上下文,输出同时给出文本和语音,上限 64K token。最关键的是它\"边说边译\"的并发流式推理方式——传统同传系统必须等说话人停顿,再整段翻译输出,节奏一卡一卡;而 Live Translate 用连续流处理,把延迟压到几秒以内,同时保留说话人的语调、语速和音高。\n\n\"流式语音翻译\"并非新概念。Google Translate 多年前就有演示,过去需依赖 Pixel Buds 配合 Android;去年底模型驱动的实时翻译才推广到任意耳机和 iOS。但那时延迟和音色还原度都还停留在\"勉强能用\"。3.5 Live Translate 的分水岭在于三个评估维度同步提升:翻译质量用 AutoMQM 错误分类自动打分;延迟同时测首字延迟和词级延迟;语音自然度则用专门的 TTS 指标。三者一起把\"实时翻译\"从演示带向了生产。\n\n值得玩味的,是 Google 的产品形态。它不是藏在 Google Translate 里的开关,而是 Gemini Live API 里独立可调的模型——开发者可借此构建同声传译、多语种电话转接、跨国直播字幕这类 B 端场景。Google Meet 企业内测先于 To C 铺开,紧接着才是 Android\u002FiOS 端 Translate 的全面推送。这种\"先开发者、后企业、再大众\"的节奏,反映出 Google 对 API 生态变现的押注。\n\n横向看,5 月阿里 Qwen 推出 Qwen3.5-LiveTranslate-Flash、Tencent 混元开源 Hy-MT2、Sakana AI 发布 KAME 级联架构,语音翻译已成大模型厂商的标配战场。Gemini 3.5 Live Translate 的差异化不再是\"能不能做\",而是谁能把延迟、音色、多语种噪声鲁棒性同时做到商用级别。下一步竞赛,将是终端芯片的推理优化——把这样的大模型塞进耳机和手机里,才是真正的硬骨头。","https:\u002F\u002Fblog.google\u002Finnovation-and-ai\u002Fmodels-and-research\u002Fgemini-models\u002Fgemini-live-3-5-translate\u002F","4d11edad-2df6-45f6-b71f-70f65de7f7fd",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"a9524a82-a7c5-4daa-bb4b-a7ee77bb0b94","gemini",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"8cf7490f-2449-4ba7-be19-61befa0d92b4","google",{"id":18,"name":19,"slug":19,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":21,"name":22,"slug":22,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal","2026-06-10T00:00:00Z","2026-06-10T00:09:17.417978Z","2026-06-10T00:09:17.417989Z",true,"agent",14]