探索APTAI:一种新型的声学音素到发音语音反转技术
摘要
本文介绍了一种新颖的结合任务,即声学语音反转(AAI)和音素到发音(PTA)运动估计的联合任务,称为声学音素到发音语音反转(APTAI)。该研究探索了两种不同的方法,这两种方法在推理过程中都能独立于说话者和文本进行工作。通过多任务学习设置,目标是从原始语音输入中估计相应的发音运动、音素序列和音素对齐。两种方法在实现音素相关预测的方式上有所不同:一种是基于帧分类,另一种是基于两阶段训练过程和强制对齐。研究在AAI任务中达到了0.73的平均相关性,与最先进的文本依赖音素强制对齐器相比,实现了高达约87%的帧重叠。
原理
APTAI模型基于wav2vec2.0的微调,通过帧分类和TV回归进行。输入的16 kHz语音信号被分割成512维的帧,频率为49 Hz。经过特征编码器处理后,通过变换器层输出1024维的隐藏状态。然后,TV头和音素头分别对这些隐藏状态进行处理,前者预测每帧的9个TV值,后者预测每帧的45个音素标签的概率分布。通过多任务学习损失函数(包括均方误差损失和交叉熵损失),模型同时优化发音运动回归和音素预测任务。
流程
APTAI的工作流程包括以下步骤:首先,输入的原始语音信号通过wav2vec2.0的特征提取器进行预处理,生成帧序列。接着,这些帧序列通过变换器层进行处理,生成隐藏状态。然后,TV头和音素头分别对这些隐藏状态进行处理,前者预测TV值,后者预测音素标签。最后,通过多任务学习损失函数进行优化,实现发音运动和音素序列的联合预测。
应用
APTAI的应用前景广泛,特别是在语音治疗和语音识别领域。由于其能够在不依赖特定说话者和文本的情况下进行工作,APTAI可以用于开发更通用和适应性强的语音处理系统。此外,该技术还可以用于改善语音识别的准确性,特别是在处理复杂或不清晰的语音输入时。
