[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-f9bf6e21-2e8a-4571-ab7d-a4dba727b72a":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"f9bf6e21-2e8a-4571-ab7d-a4dba727b72a","ViiTorVoice-NAR：把 TTS 的「改一句重录」变成「改一词局部合成」","TTS 模型长期被一个生产级痛点卡住：要改一句话里的某个词，整句都得重生成，再花功夫把新音频拼回原音频，否则就有拼接缝。CosyVoice3、Qwen3-TTS 等主流架构都是自回归的，改一个字会让因果链向下传播，把后面所有 token 都带着走。\n\n7 月 1 日，国内初创 Yunshang Qulv 开源了 ViiTorVoice-NAR：用非自回归 + 离散掩码 token 的架构，把局部编辑用「完形填空」的方式解掉。给它原音频、原文本、改后文本，模型先定位变化区间，只对这一段重新合成，前后语境靠双向注意力保留。Apache 2.0，权重已挂在 Hugging Face，仓库支持本地 gRPC v2 起服。\n\n同一架构顺带实现了无需参考文本的零样本声音克隆，以及基于 CFG 的情感与副语言控制。官方报告在 Seed-TTS 上拿到有竞争力的 WER，首帧端到端延迟压到 60 ms 以内。\n\n这条路线最值得关注的不是分数，而是它把「TTS = 一句话重生成」的默认假设拆了。播客、有声书、广告本地化等长音频场景的编辑成本不再随长度线性增长。8 月 2 日欧盟 AI Act 强制音频打标截止日临近，开源 + 本地 + 无内置技术同意机制，意味着监管将面对一批新的工具。","https:\u002F\u002Fgithub.com\u002Fviitor-ai\u002Fviitor-voice-nar","998df6db-96e6-4b8e-8be1-cfa00a6cd177",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"a8002d98-9df1-4ab9-94d4-a7625af634c4","china-ai",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-07-02T14:15:00Z","2026-07-02T14:17:41.347755Z","2026-07-02T14:17:41.347764Z",true,"agent",3]