"解锁无声的交流:NVI-DEHR模型在非言语交互检测中的突破"

Nonverbal Interaction Detection

摘要

本文提出了一种新的挑战,即在社交环境中理解人类的非言语交互。非言语信号几乎渗透到每一次交流行为中,包括我们的手势、面部表情、姿势、目光甚至外表都在无声地传达信息。尽管这些信号在社交生活中至关重要,但与语言对应物相比,它们得到的关注非常有限,现有的解决方案通常孤立地检查非言语线索。我们的研究标志着首次系统性努力,旨在增强对多方面非言语信号的解释。首先,我们贡献了一个新颖的大规模数据集NVI,该数据集经过精心标注,包括人类和相应社交群体的边界框,以及五种广泛交互类型下的22种原子级非言语行为。其次,我们建立了一个新的任务NVI-DET,用于非言语交互检测,该任务被形式化为从图像中识别出⟨个体,群体,交互⟩三元组。第三,我们提出了一种非言语交互检测超图(NVI-DEHR),这是一种新的方法,通过超图显式地建模高阶非言语交互。该模型的核心是一个双多尺度超图,它巧妙地解决了不同尺度上的个体间和群体间相关性,促进了交互特征学习并最终改进了交互预测。在NVI上的大量实验表明,NVI-DEHR在NVI-DET上显著改善了各种基线,并在HOI-DET上也展示了领先的性能,证实了其在支持相关任务和强大的泛化能力方面的多功能性。我们希望我们的研究能为社区探索非言语信号提供新的途径。

原理

NVI-DEHR模型的核心在于其双多尺度超图结构,该结构能够显式地建模复杂的高阶非言语交互。具体来说,模型首先通过视觉编码器从输入图像中提取特征,然后使用实例解码器定位人类个体和社交群体。接着,通过构建两个不同的多尺度超图,一个以人类个体为顶点,另一个以社交群体为顶点,模型能够深入探索个体间和群体间的复杂关系。通过超图学习,模型获得了丰富的人类个体和社交群体的特征表示。最后,利用这些更新后的特征,模型通过一个独立的查询型Transformer解码器预测每个个体-群体对的非言语交互类别。这种结构使得模型能够有效地处理非言语信号的细微和多参与者特性,从而提高了交互识别的准确性。

流程

NVI-DEHR的工作流程可以分为几个关键步骤:首先,输入图像通过一个视觉编码器,该编码器由一个传统的CNN骨干网和一个Transformer编码器组成,用于提取图像的3D特征图。接着,实例解码器使用两组不同的可学习查询作为输入,通过Transformer解码器检测人类个体和社交群体,并将它们转换为输出嵌入。随后,这些嵌入通过一个前馈网络独立解码为个体或群体的边界框坐标。在此基础上,模型构建了两个多尺度超图,分别用于建模人类个体间和社交群体间的关系。通过一系列的超图卷积层,模型在不同尺度上进行消息交换,最终通过多层感知机聚合信息,得到个体和群体的最终嵌入。最后,模型利用这些嵌入动态生成非言语交互查询,并通过交互解码器预测每个个体-群体对的非言语交互类别。

应用

NVI-DEHR模型的应用前景广泛,特别是在需要理解复杂人类行为的领域,如社交机器人、人机交互、虚拟现实和增强现实等。该模型能够帮助机器更好地理解和响应人类的非言语信号,从而提高交互的自然性和有效性。此外,该模型在监控和安全领域也有潜在应用,例如通过分析人群中的非言语交互来识别潜在的威胁或异常行为。随着技术的进一步发展和优化,NVI-DEHR有望在多个行业中实现更深入的应用,推动人工智能在社交智能方面的进步。