探索ALS疾病进展的新前沿:ALST模型的创新与应用

Automatic Prediction of Amyotrophic Lateral Sclerosis Progression using Longitudinal Speech Transformer

摘要

本文介绍了一种基于神经网络的自动预测肌萎缩侧索硬化症(ALS)疾病进展的方法,称为ALS纵向语音转换器(ALST)。该方法通过分析ALS患者的纵向语音记录,利用高质量的预训练语音特征和纵向信息,实现了对ALS疾病进展的精确预测。ALST在ALS TDI数据集上的表现优于以往的最佳模型,AUC达到了91.0%,相对提高了5.6%。该研究不仅提供了一种更高效和客观的ALS疾病进展预测方法,还为早期诊断和治疗新方法的开发提供了重要支持。

原理

ALST模型的工作原理基于四个主要组件:预训练特征提取器、音素对齐器、纵向语音编码器和ALSFRS-R评分器。预训练特征提取器(如wav2vec 2.0或Whisper编码器)将原始语音波形转换为20毫秒帧级别的特征。音素对齐器利用强制对齐技术将帧级别特征转换为音素级别表示。纵向语音编码器通过联合编码跨时间的特征,进一步上下文化音素级别特征。最后,ALSFRS-R评分器通过平均池化将隐藏编码从编码器转换为话语级别,并结合话语级别特征进行连续评分预测和评分类别概率预测。模型的训练目标结合了交叉熵和均方误差(MSE),以优化模型的预测性能。

流程

ALST的工作流程包括数据预处理、模型训练和评估。首先,使用ALS TDI数据集,该数据集包含ALS患者的语音记录和自我评估的ALSFRS-R评分。数据集被分为训练集和测试集。模型训练阶段,ALST利用预训练的语音表示模型进行特征提取,并通过纵向语音编码器处理这些特征。训练过程中,模型通过优化交叉熵和MSE损失函数来调整参数。最后,通过评估指标(如AUC、Macro F1、Spearman’s ρ等)对模型性能进行评估,确保模型能够准确预测ALS疾病进展。

应用

ALST的应用前景广阔,特别是在ALS的早期诊断和疾病管理中。通过自动化的语音分析,ALST能够提供一种更客观、一致的评估方法,减少对人工评估的依赖。此外,该技术还可以用于监测治疗效果,为个性化医疗提供支持。随着技术的进一步发展和优化,ALST有望在神经退行性疾病的研究和治疗中发挥重要作用。