探索情感的深度:MSP-Podcast SER挑战2024的多模态自监督学习方法
摘要
本文详细介绍了LIA团队在2024年MSP-Podcast语音情感识别(SER)挑战中的参赛方案。该挑战分为两个任务,本文专注于任务1,即对MSP-Podcast数据集中的语音片段进行八种情感状态的分类。研究团队采用了一种多模态自监督学习方法,通过结合语音和文本数据,训练多个独立的模型,并使用支持向量机(SVM)进行分数级融合,以提高情感分类的准确性。该方法在开发集上获得了0.35%的F1-macro分数,显示出其在情感识别领域的先进性和潜力。
Read more...








