探索SaMoye:零样本歌唱声音转换的革命性进展

SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis

摘要

本文介绍了一种名为SaMoye的端到端特征解耦合成模型,用于实现零样本多对多歌唱声音转换(SVC)。SaMoye模型通过解耦歌唱声音的特征为内容特征、音色特征和音高特征,实现了在不依赖大量预训练数据的情况下,将一首歌的演唱者声音转换为另一个演唱者的声音,同时保持音乐内容如节奏和旋律的一致性。该模型通过引入GPT模块增强内容特征,并使用大规模无标签数据集进行训练,以确保零样本性能。

原理

SaMoye模型的核心在于其特征解耦和合成机制。首先,模型通过Hubert模型提取音频特征,并使用残差向量量化(RVQ)将这些特征量化为内容令牌。接着,通过GPT模块进行跨预测,即从Hubert令牌预测音素,反之亦然,这一过程增强了内容信息并减少了音色信息。此外,模型还引入了基于so-vits的歌唱声音转换模块,其中内容特征为Hubert令牌,音色特征从Mel频谱图中提取。通过替换音色特征,模型能够在零样本情况下输出转换后的音频。

流程

在训练阶段,SaMoye模型首先从音频剪辑中提取内容特征和音色特征,然后通过GPT模块进行内容特征增强。在推理阶段,模型通过替换目标歌手的音色特征,使用Glow解码器生成转换后的音频。具体流程包括:1) 使用Hubert模型提取音频特征;2) 通过RVQ量化这些特征;3) 使用GPT模块进行内容特征增强;4) 替换音色特征;5) 使用Glow解码器生成转换后的音频。

应用

SaMoye模型的应用前景广泛,特别是在音乐制作、娱乐产业和语音技术领域。例如,音乐制作人可以利用该技术快速转换歌曲的演唱者,而无需重新录制;娱乐产业可以通过改变歌手的声音来创造新的艺术表现形式;语音技术领域则可以探索更多个性化语音合成的可能性。