MToMnet:一种新型神经网络用于预测人类信念及其动态变化

Explicit Modelling of Theory of Mind for Belief Prediction in Nonverbal Social Interactions

摘要

本文介绍了一种名为MToMnet的新型神经网络,专门用于从多模态输入中预测人类社交互动中的信念及其动态变化。MToMnet的核心是理论心灵(ToM)模型,这对于有效的非言语人类沟通和协作至关重要。现有的信念建模方法通常未包含显式的ToM建模,或者仅限于一两种模态。MToMnet通过为每个人分别使用一个MindNet来编码上下文线索(如场景视频和物体位置)和个人特定线索(如人类注视和身体语言),从而实现了对信念和信念动态的预测。本文提出的三种MToMnet变体在两个具有挑战性的真实世界数据集上进行了评估,结果显示MToMnet在性能上显著超越了现有方法,同时参数数量大幅减少。这一方法为未来能够从非言语行为中稳健预测人类信念的人工智能系统开辟了新的研究方向,从而更有效地与人类协作。

原理

MToMnet的工作原理基于显式的理论心灵(ToM)建模,通过结合个人特定的非言语沟通线索(如注视和姿态)和上下文线索(如视频帧和物体位置)来预测信念及其动态变化。每个MindNet是一个基于LSTM的子网络,专门用于编码个人的特质。MToMnet的三种变体分别是基于决策的(DB-MToMnet)、隐式沟通(IC-MToMnet)和共同基础(CG-MToMnet),它们分别通过不同的机制来整合和利用这些线索。具体来说,DB-MToMnet通过重新排序分类分数来整合信念预测,IC-MToMnet通过内部LSTM单元状态的交换来实现MindNet之间的沟通,而CG-MToMnet则通过连接两个MindNet的单元状态来形成一个共同基础表示。这些机制使得MToMnet能够更准确地捕捉和预测人类的信念动态,尤其是在缺乏言语沟通的情况下。

流程

MToMnet的工作流程包括以下几个关键步骤:

  1. 输入编码:使用共享特征提取器对上下文线索(如视频帧和物体位置)进行编码,同时使用两个独立的MindNet对个人特定线索(如注视和姿态)进行编码。
  2. 特征整合:将上下文和个人特定线索的编码结果进行整合,并通过归一化层和双向LSTM来处理时间信息。
  3. 信念预测:通过全连接分类层生成信念预测的概率分布,并使用argmax函数确定最终的信念预测。
  4. ToM机制应用:根据不同的MToMnet变体(DB、IC、CG),应用相应的ToM机制来进一步优化信念预测。

例如,在DB-MToMnet中,信念预测是通过重新排序两个MindNet的分类分数来实现的;在IC-MToMnet中,是通过交换LSTM的隐藏状态和单元状态来实现MindNet之间的沟通;在CG-MToMnet中,是通过连接两个MindNet的单元状态来形成共同基础表示。

应用

MToMnet的应用前景广泛,特别是在需要理解和预测人类信念及其动态变化的领域,如社交机器人、虚拟现实、人机交互等。通过更准确地预测人类的信念和意图,MToMnet可以帮助设计更有效的协作系统和交互界面,从而提升用户体验和系统的整体性能。此外,MToMnet的显式ToM建模方法也为未来在动态环境和多代理系统中的应用提供了可能性,特别是在需要处理复杂社交互动和沟通的场景中。