探索DEX-TTS:基于扩散模型的表达性文本到语音合成的新前沿

DEX-TTS: Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability

摘要

本文介绍了一种基于扩散模型的表达性文本到语音合成系统(DEX-TTS),该系统通过引入时间不变和时间变量风格分类以及高效的编码器和适配器设计,显著提升了参考语音合成的自然度和风格表现力。DEX-TTS在多个英语多说话人和情感多说话人数据集上进行了客观和主观评估,显示出其在零样本场景下的高度泛化能力和优秀的合成性能。此外,该模型在单说话人数据集上的表现也验证了其扩散骨干网络的有效性。

原理

DEX-TTS的核心创新在于其对风格的精细处理和高效集成。模型首先通过时间不变(T-IV)和时间变量(T-V)风格编码器从参考语音中提取风格特征。T-IV编码器处理全局信息,而T-V编码器则关注语音中的时间变化特征。随后,这些风格特征通过适配器被集成到语音合成过程中,适配器采用自适应实例归一化(AdaIN)和交叉注意力机制,确保风格信息在合成过程中的有效反映和时间上的适应性调整。此外,模型还引入了重叠补丁化和卷积频率补丁嵌入策略,以增强基于扩散网络的TTS模型的性能。

流程

DEX-TTS的工作流程包括以下几个关键步骤:首先,输入文本通过文本编码器转换为文本表示。同时,参考语音通过T-IV和T-V风格编码器提取风格特征。接着,这些风格特征与文本表示一起输入到扩散解码器中,通过迭代去噪过程生成语音的梅尔频谱图。最后,生成的梅尔频谱图通过声码器转换为最终的语音信号。整个过程中,风格适配器在扩散解码器的每个去噪步骤中动态调整风格信息的集成,确保合成语音既自然又具有高度的风格一致性。

应用

DEX-TTS的应用前景广泛,特别适用于需要高度个性化和情感表达的语音合成场景,如虚拟助手、有声读物和游戏角色语音等。其强大的风格适应能力和泛化性能使其能够轻松扩展到新的说话人和情感类型,为多样化的语音合成应用提供了强大的技术支持。