"ELR-GNN:革新多模态对话情感识别的高效图神经网络"

Efficient Long-distance Latent Relation-aware Graph Neural Network for Multi-modal Emotion Recognition in Conversations

摘要

本文介绍了一种高效的长距离潜在关系感知图神经网络(ELR-GNN),用于对话中的多模态情感识别(MERC)。该任务旨在基于对话中的多模态信息分析每个话语的真实情感状态,对于对话理解至关重要。现有方法主要使用图神经网络(GNN)来建模对话关系并捕捉上下文的潜在语义关系。然而,由于GNN的复杂性,现有方法无法有效捕捉长距离话语之间的潜在依赖关系,从而限制了MERC的性能。ELR-GNN通过使用预提取的文本、视频和音频特征作为输入,利用双向长短期记忆网络(Bi-LSTM)捕捉上下文语义信息,并构建对话情感交互图。为了有效捕捉长距离话语之间的潜在依赖关系,本文采用扩张广义前向推送算法预计算全局话语之间的情感传播,并设计情感关系感知操作符来捕捉不同话语之间的潜在语义关联。此外,结合早期融合和自适应晚期融合机制,融合说话者关系信息和上下文的潜在依赖信息。最后,获取高级话语特征并将其输入多层感知机(MLP)进行情感预测。实验结果表明,ELR-GNN在基准数据集IEMOCAP和MELD上达到了最先进的性能,运行时间分别减少了52%和35%。此外,ELR-GNN能够有效提高MERC任务的准确性,通过捕捉和融合话语之间的潜在语义关系。

原理

ELR-GNN的核心工作原理是通过多阶段处理流程来实现多模态情感识别。首先,使用预训练的RoBERTa、3D-CNN和openSMILE分别提取文本、视频和音频特征。接下来,这些特征通过Bi-LSTM网络捕捉上下文语义信息,生成低级话语特征。然后,利用这些低级话语特征构建说话者关系图,其中话语特征作为节点,对话关系作为边。为了捕捉长距离上下文的潜在依赖关系,采用图随机神经网络算法随机采样top-k节点进行信息提取。此外,结合早期融合和自适应晚期融合机制,同时融合说话者关系信息和上下文的潜在依赖信息。最终,通过MLP和softmax层进行情感分类。这一过程通过高效的长距离潜在关系感知机制,确保了模型能够捕捉到对话中复杂的关系和情感动态。

流程

ELR-GNN的工作流程包括四个主要阶段:序列上下文特征提取、图构建、长距离上下文潜在关系探索和信息融合。在序列上下文特征提取阶段,使用Bi-LSTM捕捉多模态特征中的上下文语义信息。在图构建阶段,利用图结构的固有属性构建说话者关系图,其中上下文语义特征作为节点特征,对话关系作为边。在长距离上下文潜在关系探索阶段,采用扩张广义前向推送算法计算传播矩阵,并通过top-k稀疏化进一步减少网络训练时间,以全面考虑上下文的潜在相关性。在信息融合阶段,结合早期融合和自适应晚期融合机制,同时融合说话者关系信息和上下文的潜在依赖信息,最终通过MLP和softmax层进行情感预测。

应用

ELR-GNN在多模态情感识别领域的应用前景广泛,特别是在智能客服、人机交互(HCI)和安全监控等领域。例如,在HCI中,ELR-GNN可以帮助计算机更好地理解用户的情感状态,从而实现更智能的交互并提升用户体验。此外,ELR-GNN的高效性和准确性使其在处理大规模对话数据时具有显著优势,有望推动情感分析技术在更多实际场景中的应用。