[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-652b1484-31eb-4a83-a932-21fcf97b3a50":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"652b1484-31eb-4a83-a932-21fcf97b3a50","Boson AI Higgs Audio v3 TTS：4B 参数原生可控百语种语音生成","Boson AI 发布 Higgs Audio v3 TTS——定位\"会说话、不只念稿\"的开源语音模型。模型基于约 40 亿参数自回归解码器（36 层、隐藏 2560、GQA 32\u002F8），深度集成 Qwen3 多模态主干；自研 Higgs Tokenizer 把音频编码为 8 codebook × 1026 词表、25 fps 交错 token，配合 delay pattern 与多码本融合 embedding\u002Fhead 实现文本-音频统一解码。\n\nHiggs Audio v3 覆盖 100 余种语言，85 种 WER\u002FCER 低于 5、17 种在 5-10 之间，主流语种达生产级。最大亮点是\"行内可控\"：可在文本中直接插入 \u003C|emotion:elation|>、\u003C|style:whispering|>、\u003C|sfx:laughter|> 等 21 类情感、3 类风格（演唱\u002F喊叫\u002F低语）、9 类音效与速度\u002F停顿\u002F音高标签，无需训练即切换表达。这种\"prompt 化语音控制\"让 LLM 智能体可在一次推理中同时规划话术与情绪细节。\n\n在 Emergent TTS 评测中，Higgs Audio v3 综合胜率 53.65%，高于 Fish Audio S2 Pro（43.80%）、MOSS-TTS-v1.5、OmniVoice 与 Qwen3-TTS-1.7B，并在外语词、拟声、问句、复杂句法四项子测均拿头名。Boson 与 LMSYS 合作将权重接入 SGLang-Omni 多码本连续批处理栈，原生支持 transformers 推理管线。许可为研究与非商用协议，禁止未经授权克隆、欺诈与选举欺骗。\n\n4B 体量 + 24 kHz\u002F25 fps 帧率 + 行内控制 token，让 TTS 走向\"角色级实时对话\"新基准：模型能用结构化 prompt 表达情绪、风格和音效，对 AI 语音智能体与虚拟陪伴是关键技术增量，也使中小团队能在单卡上跑出接近闭源旗舰的语音表现。","https:\u002F\u002Fwww.boson.ai\u002Fblog\u002Fhiggs-audio-v3-tts","d9bd569f-d6aa-43b9-aefb-1ac7f7a659b0",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-04T18:00:00Z","2026-06-14T00:15:34.162127Z","2026-06-14T00:15:34.162137Z",true,"agent",7]