探索CosyVoice:引领多语言零样本TTS技术的新纪元
摘要
本文介绍了一种基于监督语义令牌的可扩展多语言零样本文本到语音合成器——CosyVoice。该研究解决了传统文本到语音(TTS)模型中语音令牌缺乏明确语义信息和与文本对齐的问题。通过从多语言语音识别模型中提取监督语义令牌,并结合大型语言模型(LLM)和条件流匹配模型,CosyVoice在零样本语音克隆中显著提高了内容一致性和说话者相似度。实验结果表明,CosyVoice具有良好的可扩展性,利用大规模数据进一步提升了合成性能。
原理
CosyVoice的核心创新在于引入了监督语义令牌,这些令牌通过在多语言语音识别模型的编码器中插入向量量化层来提取。这些令牌不仅捕捉了语音的语义信息,还与文本内容进行了精确对齐。基于这些令牌,CosyVoice结合了LLM进行文本到令牌的生成和条件流匹配模型进行令牌到语音的合成。条件流匹配模型通过优化训练和推理过程,加速了从文本到语音的转换,同时保持了高质量的语音输出。
流程
CosyVoice的工作流程包括四个主要组件:文本编码器、语音令牌器、大型语言模型和条件流匹配模型。首先,文本编码器对文本进行处理,将其与语音令牌的语义空间对齐。接着,语音令牌器提取语义令牌。然后,大型语言模型学习文本编码和语音令牌的整个序列,将TTS任务重新定义为自回归序列生成问题。最后,条件流匹配模型将语音令牌转换为梅尔频谱图,并通过HiFiGAN声码器合成最终的波形。例如,在处理多语言文本时,CosyVoice能够无缝地生成与输入文本语言相匹配的语音。
应用
CosyVoice的应用前景广泛,特别适用于需要高度自然语音合成的场景,如虚拟助手、教育软件、游戏和娱乐产业。其零样本学习能力和多语言支持使其能够快速适应新语言和方言,为全球用户提供定制化的语音服务。此外,CosyVoice的高质量语音合成和情感控制能力,也使其在情感交流和个性化内容创作领域具有巨大潜力。
