WavRx:开创性的语音健康诊断模型,实现疾病无关和隐私保护的远程监测

WavRx: a Disease-Agnostic, Generalizable, and Privacy-Preserving Speech Health Diagnostic Model

摘要

本文介绍了一种名为WavRx的新型语音健康诊断模型,该模型能够捕获语音中的呼吸和发音相关动态,适用于多种疾病,具有高度的通用性和隐私保护特性。WavRx模型基于WavLM模型构建,通过引入一种新颖的调制动态模块,混合了高分辨率的时间WavLM表示与语音的长期调制动态。在六个病理语音数据集上的实验表明,WavRx模型在四个数据集上达到了最先进的性能,并且在跨数据集和疾病的零样本诊断任务中表现出优异的泛化能力。此外,该模型在训练过程中不需要额外的指导,就能显著减少健康嵌入中的说话者身份信息,从而提供了一种隐私保护的解决方案。

原理

WavRx模型的核心在于其调制动态模块,该模块通过将WavLM模型的高分辨率时间表示与语音的长期调制动态相结合,有效地捕捉了语音信号中的疾病相关特征。具体来说,WavRx模型首先使用预训练的WavLM编码器从原始语音波形中提取时间表示,然后通过短时傅里叶变换(STFT)对每个特征通道进行处理,生成三维的调制动态表示。这种表示不仅包含了语音的短期变化,还捕捉了更长期的动态变化,如说话速率、呼吸和情绪等。通过这种方式,WavRx模型能够更全面地理解语音信号,从而提高疾病诊断的准确性和泛化能力。

流程

WavRx模型的工作流程包括三个主要组件:预训练编码器、调制动态块和注意力统计池化及输出层。首先,预训练的WavLM编码器从原始语音波形中提取时间表示。接着,调制动态块对这些时间表示进行处理,捕捉长期动态变化。最后,注意力统计池化层和输出层将来自前两个块的表示融合,并生成最终的诊断决策。整个过程中,WavRx模型可以在本地部署以提取健康嵌入,这些嵌入随后上传到中央云服务器进行决策制定,确保了用户身份信息的隐私保护。

应用

WavRx模型在远程健康监测和疾病诊断领域具有广泛的应用前景。由于其疾病无关和跨数据集的泛化能力,该模型可以应用于多种语音相关的病理检测,如COVID-19、帕金森病和阿尔茨海默病等。此外,其隐私保护特性使得该模型在处理敏感的语音数据时更加安全和可靠,适合在医疗健康领域的大规模部署和应用。