探索情感的深度:MSP-Podcast SER挑战2024的多模态自监督学习方法
摘要
本文详细介绍了LIA团队在2024年MSP-Podcast语音情感识别(SER)挑战中的参赛方案。该挑战分为两个任务,本文专注于任务1,即对MSP-Podcast数据集中的语音片段进行八种情感状态的分类。研究团队采用了一种多模态自监督学习方法,通过结合语音和文本数据,训练多个独立的模型,并使用支持向量机(SVM)进行分数级融合,以提高情感分类的准确性。该方法在开发集上获得了0.35%的F1-macro分数,显示出其在情感识别领域的先进性和潜力。
原理
本文提出的系统采用了一种两级架构,首先通过不同的子系统(包括语音和文本编码器)提取情感特征,然后通过SVM进行融合。语音编码器如WavLM和HuBERT利用自监督学习(SSL)从大量未标注数据中学习丰富的语音表示,而文本编码器如RoBERTa则从文本数据中提取情感相关的特征。这些特征通过均值池化和注意力池化策略进行时间维度上的聚合,最终通过线性分类器映射到具体的情感类别。这种多模态和多子系统的融合方法显著提高了系统的情感识别能力。
流程
系统的工作流程包括以下几个关键步骤:首先,使用预训练的语音和文本编码器(如WavLM和RoBERTa)对输入的语音片段进行特征提取。接着,通过池化策略(均值池化和注意力池化)对提取的特征进行时间维度上的聚合。最后,将聚合后的特征输入到线性分类器中,进行情感类别的预测。整个流程通过多个子系统的独立训练和后续的SVM融合,实现了对情感状态的准确分类。
应用
该研究提出的多模态自监督学习方法在语音情感识别领域具有广泛的应用前景。它可以应用于各种需要情感分析的场景,如人机交互、心理健康监测、娱乐内容分析等。通过进一步的研究和优化,该方法有望在未来的情感识别系统中发挥重要作用,提高系统的准确性和鲁棒性。
