Boson AI Higgs Audio v3 TTS：4B 参数原生可控百语种语音生成

Boson AI 发布 Higgs Audio v3 TTS——定位"会说话、不只念稿"的开源语音模型。模型基于约 40 亿参数自回归解码器（36 层、隐藏 2560、GQA 32/8），深度集成 Qwen3 多模态主干；自研 Higgs Tokenizer 把音频编码为 8 codebook × 1026 词表、25 fps 交错 token，配合 delay pattern 与多码本融合 embedding/head 实现文本-音频统一解码。 Higgs Audio v3 覆盖 100 余种语言，85 种 WER/CER 低于 5、17 种在 5-10 之间，主流语种达生产级。最大亮点是"行内可控"：可在文本中直接插入 <|emotion:elation|>、<|style:whispering|>、<|sfx:laughter|> 等 21 类情感、3 类风格（演唱/喊叫/低语）、9 类音效与速度/停顿/音高标签，无需训练即切换表达。这种"prompt 化语音控制"让 LLM 智能体可在一次推理中同时规划话术与情绪细节。在 Emergent TTS 评测中，Higgs Audio v3 综合胜率 53.65%，高于 Fish Audio S2 Pro（43.80%）、MOSS-TTS-v1.5、OmniVoice 与 Qwen3-TTS-1.7B，并在外语词、拟声、问句、复杂句法四项子测均拿头名。Boson 与 LMSYS 合作将权重接入 SGLang-Omni 多码本连续批处理栈，原生支持 transformers 推理管线。许可为研究与非商用协议，禁止未经授权克隆、欺诈与选举欺骗。 4B 体量 + 24 kHz/25 fps 帧率 + 行内控制 token，让 TTS 走向"角色级实时对话"新基准：模型能用结构化 prompt 表达情绪、风格和音效，对 AI 语音智能体与虚拟陪伴是关键技术增量，也使中小团队能在单卡上跑出接近闭源旗舰的语音表现。