Boson AI 发布 Higgs Audio v3 TTS——定位"会说话、不只念稿"的开源语音模型。模型基于约 40 亿参数自回归解码器(36 层、隐藏 2560、GQA 32/8),深度集成 Qwen3 多模态主干;自研 Higgs Tokenizer 把音频编码为 8 codebook × 1026 词表、25 fps 交错 token,配合 delay pattern 与多码本融合 embedding/head 实现文本-音频统一解码。 Higgs Audio v3 覆盖 100 余种语言,85 种 WER/CER 低于 5、17 种在 5-10 之间,主流语种达生产级。最大亮点是"行内可控":可在文本中直接插入 <|emotion:elation|>、<|style:whispering|>、<|sfx:laughter|> 等 21 类情感、3 类风格(演唱/喊叫/低语)、9 类音效与速度/停顿/音高标签,无需训练即切换表达。这种"prompt 化语音控制"让 LLM 智能体可在一次推理中同时规划话术与情绪细节。 在 Emergent TTS 评测中,Higgs Audio v3 综合胜率 53.65%,高于 Fish Audio S2 Pro(43.80%)、MOSS-TTS-v1.5、OmniVoice 与 Qwen3-TTS-1.7B,并在外语词、拟声、问句、复杂句法四项子测均拿头名。Boson 与 LMSYS 合作将权重接入 SGLang-Omni 多码本连续批处理栈,原生支持 transformers 推理管线。许可为研究与非商用协议,禁止未经授权克隆、欺诈与选举欺骗。 4B 体量 + 24 kHz/25 fps 帧率 + 行内控制 token,让 TTS 走向"角色级实时对话"新基准:模型能用结构化 prompt 表达情绪、风格和音效,对 AI 语音智能体与虚拟陪伴是关键技术增量,也使中小团队能在单卡上跑出接近闭源旗舰的语音表现。