即时说话者适应:构音障碍和老年语音识别的新前沿
摘要
本文提出了一种针对构音障碍和老年说话者的高效数据驱动方法,用于在测试时快速适应深度神经网络/时间延迟神经网络(DNN/TDNN)和Conformer自动语音识别(ASR)模型。该方法包括两种新颖的数据高效技术:1)说话者级别方差正则化的谱基嵌入(VR-SBE)特征,利用特殊正则化项确保适应过程中的说话者特征同质性;2)基于特征的学习隐藏单元贡献(f-LHUC)变换,条件为VR-SBE特征。实验在四个任务上进行,涵盖英语和广东话的构音障碍和老年语音数据集。所提出的即时说话者适应技术在单词或字符错误率上显著优于基线iVector和xVector适应,以及批处理模式的LHUC说话者适应,同时具有高达33.6倍的实时因子加速。本文展示了所提出适应技术的有效性,并在UASpeech数据集上实现了最先进的单词错误率(WER)23.33%。分析表明,VR-SBE特征和f-LHUC变换对测试时适应中的说话者级别数据量不敏感。T-SNE可视化显示,它们比基线iVectors、xVectors和批处理模式LHUC变换具有更强的说话者级别同质性。
原理
本文提出的方法通过两种新颖的技术实现即时说话者适应:VR-SBE特征和f-LHUC变换。VR-SBE特征通过在训练谱基嵌入神经网络时包含额外的方差正则化项,确保说话者特征的同质性,从而允许在测试时即时适应构音障碍或老年说话者。f-LHUC变换则是在VR-SBE特征的基础上,设计回归TDNN来直接生成并应用这些特定于说话者的参数,实现即时测试时适应。这两种方法共同作用,通过特征学习和模型参数调整,有效地捕捉并适应说话者的特定特征,从而提高ASR系统的性能。
流程
- VR-SBE特征提取:首先对语音信号进行奇异值分解(SVD),提取时间不变的谱基。然后通过多任务学习,利用说话者ID和语音可懂度/年龄信息,提取与构音障碍/老年说话者属性更一致和相关的潜在嵌入。最后,通过第二个嵌入模块,使用额外的输出方差正则化成本,确保最终VR-SBE特征的最大说话者同质性。
 - f-LHUC变换应用:基于VR-SBE特征,构建f-LHUC回归网络,直接预测并应用说话者级别的LHUC变换。这些变换在测试时即时生成,无需多次解码和参数估计,从而减少处理延迟。
 - ASR系统适应:将提取的VR-SBE特征和生成的f-LHUC变换应用于DNN/TDNN和Conformer ASR模型,进行即时说话者适应。
 
应用
所提出的即时说话者适应技术适用于构音障碍和老年语音识别,这些技术可以显著提高ASR系统在这些特定群体中的性能。随着人口老龄化和构音障碍患者的增加,这些技术在医疗、辅助技术和社交互动等领域具有广泛的应用前景。此外,这些方法的数据高效性和即时适应能力也使其适用于资源受限的环境和实时应用场景。
