探索预训练语音模型在声音障碍检测中的应用与解释性增强
摘要
本文探讨了使用预训练语音模型进行自动语音评估在声音障碍检测中的应用。研究团队训练并比较了两种音频频谱图变换器(Audio Spectrogram Transformer, AST)配置,并应用注意力展开方法(attention rollout method)生成模型相关性图,以分析模型在不同条件下的预测行为。文章强调了深度学习模型在自动语音评估中的潜力,特别是在远程健康监测和早期疾病识别方面。然而,这些模型的解释性不足,限制了它们在医疗领域的应用。本文通过分析模型决策过程,提供了一种增强模型透明度和可解释性的方法。
原理
本文采用的AST模型是一种基于Transformer架构的模型,专门设计用于处理频谱图。模型首先将输入的音频波形转换为128维的对数梅尔滤波器组(log Mel filterbank)特征,然后通过线性投影层将这些特征转换为嵌入序列。通过添加可训练的位置嵌入和类别标记嵌入,模型能够捕捉到频谱图的空间结构。注意力展开方法通过利用模型的注意力层来生成相关性图,展示了模型在做出预测时如何关注频谱图的不同区域。这种方法不仅提高了模型的解释性,还揭示了模型在微调过程中注意力分布的变化。
流程
研究团队首先从Saarbrücken语音数据库中选择了包含声音障碍和健康控制组的录音数据。随后,他们训练了两种AST模型配置:一种是冻结的AST模型(ast_freeze),另一种是微调的AST模型(ast_finetuned)。通过应用注意力展开方法,团队生成了模型的相关性图,并分析了模型在不同预测情况下的行为。例如,对于两个女性语音样本(一个健康,一个病理),模型在微调后的预测准确性有所提高,并且注意力更加集中在特定的音素区域。
应用
本文的研究成果展示了预训练语音模型在自动语音评估中的应用潜力,特别是在声音障碍检测方面。通过提高模型的解释性,这些技术可以更好地集成到临床诊断流程中,帮助医生和患者理解模型的决策过程。未来,这些技术还可以扩展到其他类型的语音相关疾病检测,如帕金森病和慢性阻塞性肺病,进一步推动远程医疗和个性化健康监测的发展。
