探索多模态对话中的情感与意图联合理解:新数据集与网络模型

Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset

摘要

本文介绍了一种名为“多模态对话中的情感与意图联合理解”(MC-EIU)的新型基准数据集。该数据集旨在解码多模态对话历史中展现的语义信息,并同时推断当前话语的情感和意图。MC-EIU是许多人机交互界面的关键技术,但目前缺乏在标注、模态、语言多样性和可访问性方面的可用数据集。本文提出的MC-EIU数据集具有7种情感类别、9种意图类别、3种模态(文本、声学和视觉内容)以及两种语言(英语和普通话),并且完全开源免费访问。此外,本文还开发了一个名为“情感与意图交互”(EI2)网络的参考系统,通过建模多模态对话中的情感与意图之间的深度关联来支持MC-EIU任务。通过比较实验和消融研究,本文证明了所提出的EI2方法在MC-EIU数据集上的有效性。

原理

EI2网络的工作原理主要涉及四个关键组件:情感与意图编码器、多模态历史编码器、情感-意图交互编码器和情感与意图分类器。情感与意图编码器分别生成当前话语的多模态情感和意图表示。多模态历史编码器负责从多模态历史中捕获多模态上下文语义信息。情感-意图交互编码器旨在学习对话中情感和意图之间的深度交互。情感与意图分类器则基于情感-意图交互信息进行预测。通过这些组件的协同工作,EI2网络能够有效地捕捉对话历史和情感与意图之间的复杂交互,从而实现对情感和意图的联合理解。

流程

EI2网络的工作流程如下:首先,情感与意图编码器分别处理当前话语的声学、文本和视觉特征,生成多模态情感和意图表示。接着,多模态历史编码器处理当前话语之前的历史信息,生成多模态上下文表示。然后,情感-意图交互编码器通过二元相关性注意力和三重交互注意力机制,学习情感和意图之间的深度交互信息。最后,情感与意图分类器结合情感和意图表示以及交互信息,进行最终的情感和意图分类预测。整个流程通过预训练和联合训练策略进行优化,确保模型能够有效地学习情感和意图的复杂关系。

应用

MC-EIU数据集和EI2网络的应用前景广泛,包括但不限于情感识别、意图识别以及情感和意图的联合识别。这些技术可以应用于各种人机交互场景,如呼叫中心对话系统、对话代理和心理健康咨询等。随着技术的进一步发展,预计这些方法将在情感计算和人类情感理解领域发挥重要作用,推动相关应用的智能化和个性化发展。