探索声学BPE在解码器-仅TTS模型中的有效性:提升语音合成的新途径
摘要
本文探讨了在仅解码器的文本到语音(TTS)模型中使用声学字节对编码(BPE)的有效性。声学BPE通过将语音离散化为标记并进一步压缩标记序列,提高了合成语音的可理解性和多样性。研究在LibriTTS数据集上进行,结果表明声学BPE能够显著提升TTS模型的性能,包括提高语音质量和加速训练及推理过程。
原理
声学BPE是一种数据压缩和文本编码算法,类似于自然语言处理中的传统BPE算法。它通过将语音离散化标记视为字符,并基于训练语料库中的频率迭代地合并最频繁的字符对,从而压缩连续的标记。这种压缩随着词汇量的增加而减少序列长度,提高了语义和形态信息的抽象表示。在TTS任务中,声学BPE被用作标记器的一部分,用于预处理输入数据,从而在解码器-仅语言模型中实现更高效的语音合成。
流程
研究首先从自监督学习(SSL)模型(如HuBERT和WavLM)中提取语音离散化标记,然后使用声学BPE模型对其进行编码。编码后的标记通过VALL-E自回归解码器-仅变换器模型生成,最后通过基于单元的声码器进行波形合成。实验中,研究者调整了从SSL模型中提取语义标记的集群数量和声学BPE的词汇量,以观察不同设置下的效果。
应用
声学BPE在TTS任务中的应用前景广阔,能够显著提升语音合成的质量、多样性和处理速度。随着技术的进一步优化和大规模数据集的应用,声学BPE有望成为未来解码器-仅LM-based TTS模型的关键技术,推动语音合成技术的发展。
