ViiTorVoice-NAR：把 TTS 的「改一句重录」变成「改一词局部合成」

TTS 模型长期被一个生产级痛点卡住：要改一句话里的某个词，整句都得重生成，再花功夫把新音频拼回原音频，否则就有拼接缝。CosyVoice3、Qwen3-TTS 等主流架构都是自回归的，改一个字会让因果链向下传播，把后面所有 token 都带着走。 7 月 1 日，国内初创 Yunshang Qulv 开源了 ViiTorVoice-NAR：用非自回归 + 离散掩码 token 的架构，把局部编辑用「完形填空」的方式解掉。给它原音频、原文本、改后文本，模型先定位变化区间，只对这一段重新合成，前后语境靠双向注意力保留。Apache 2.0，权重已挂在 Hugging Face，仓库支持本地 gRPC v2 起服。同一架构顺带实现了无需参考文本的零样本声音克隆，以及基于 CFG 的情感与副语言控制。官方报告在 Seed-TTS 上拿到有竞争力的 WER，首帧端到端延迟压到 60 ms 以内。这条路线最值得关注的不是分数，而是它把「TTS = 一句话重生成」的默认假设拆了。播客、有声书、广告本地化等长音频场景的编辑成本不再随长度线性增长。8 月 2 日欧盟 AI Act 强制音频打标截止日临近，开源 + 本地 + 无内置技术同意机制，意味着监管将面对一批新的工具。