VoxCPM2：OpenBMB 用 2B 无分词器架构，把 TTS 推到 30 语种 48kHz 工作室级

> 2B 参数 / 30 语种 + 9 方言 / 48kHz 原生输出 / Apache-2.0 开源商用 OpenBMB 这次把 VoxCPM2 顶到 GitHub Trending 第一,核心思路是**取消离散语音分词器**——整条 LocEnc → TSLM → RALM → LocDiT 流水线都跑在 AudioVAE V2 的连续潜空间里,通过 16kHz 编码 / 48kHz 解码直接端出工作室级音频,自带超分。 **关键看点** - **统一序列组织**:30 语种、Voice Design、风格可控克隆、终极克隆共用 2B 单模型,只是把"参考音频 / 提示文本 / 描述文本"换种排布,不必为每种模式单独训权重。 - **三榜 SOTA 级**:Seed-TTS-eval test-EN WER 1.84% / SIM 75.3%,test-ZH CER 0.97%;30 语种 Minimax-MLS-test SIM 维度拿下 24/30 第一;Khmer / Lao / Burmese 这类长尾语种 VoxCPM2 CER 1.42-2.05%,而 Fish S2-Pro 直接飙到 75-87%。 - **推理链路**:Nano-vLLM 在 RTX 4090 上 RTF 压到 0.13;vLLM-Omni 提供 PagedAttention + OpenAI 兼容 `/v1/audio/speech` 端点,私有化部署门槛被压到"一条命令 + 一个 curl"。 **我的判断** VoxCPM2 的真正贡献不是单项指标刷新,而是把"无分词器"在工业级(2B / 2M 小时)上跑通。语音社区从此不必再被 VQ / HuBERT 的离散化范式绑死——这是**架构级**信号。Voice Design 文本描述即可生新声音,Podcast / 短视频 / 游戏 NPC 的产能工具会被更快 AI 化。需要警惕的是:Voice Design 稳定性仍欠佳(官方承认 1-3 次取最佳),Apache-2.0 也意味着这把双刃剑会同时落到内容创作和深度伪造两端,合规使用仍要看部署方。 **一句话**:2B + 无分词器 + 30 语种 + Apache-2.0,TTS 从"语音合成"被拉到"语音基础模型"的位置。