"革新语音识别:ASV系统在语音转换与TTS模型中的应用与突破"
摘要
本文探讨了在自动说话人验证(ASV)系统中应用语音转换(VC)和文本到语音(TTS)模型改进的语音识别技术。论文的核心在于提出一种新的ASV系统,该系统能够从经过语音转换的目标说话者的音频中提取嵌入,以获取关于其声音的重要特征信息,如音高、能量和音素持续时间。这些信息被用于多说话者TTS流水线中,该流水线目前正在开发中。论文还参与了SSTC挑战,验证了经过语音转换的用户声音,并展示了20.669的等错误率(EER)。
原理
论文提出的ASV系统通过一系列编码器来提取高层次的特征映射,这些编码器配置为接受不同的音频前端,包括常数Q变换(CQT)、梅尔频谱图和音高频谱图。每个编码器通过特定的算法和参数设置来处理音频数据,例如CQT编码器使用非平稳Gabor变换算法,而梅尔频谱图编码器则采用Vision Transformer(ViT)架构。这些编码器生成的向量随后被连接并通过全连接层和激活函数处理,最终使用Additive Margin Softmax(AM-Softmax)损失函数进行训练,以确保同一说话者的嵌入在多维空间中接近,而不同说话者的嵌入则远离。
流程
论文的工作流程包括音频数据的预处理、特征提取、嵌入生成和模型训练。首先,4秒的音频片段被随机从原始录音中选取,并重新采样至24,000Hz。这些音频片段随后被送入不同的编码器(如CQT、梅尔频谱图和音高编码器)进行特征提取。提取的特征向量被连接并通过全连接层和ELU激活函数处理,生成主要的嵌入。这些嵌入随后用于训练模型,使用AM-Softmax损失函数进行优化。在实验阶段,模型在多个数据集上进行测试,包括LibriTTS-R和CMU ARCTIC,以评估其在不同说话者和语音条件下的性能。
应用
论文提出的ASV系统具有广泛的应用前景,特别是在生物识别安全和语音合成领域。该系统能够有效识别经过语音转换的音频,这对于防止身份欺诈和提高语音生物识别系统的安全性至关重要。此外,该系统在TTS模型中的应用可以提高语音合成的自然度和个性化,进一步推动语音技术在虚拟助手、有声读物和无障碍通信等领域的应用。
