"揭秘多人在线对话中的机器人智能:一种多模态可解释性方法"
摘要
本文介绍了一种用于多人在线对话中的人类感知机器人的多模态可解释性方法。论文的核心是提出了一种改进的收件人估计(AE)模型,该模型不仅提高了性能,还通过内置的基于注意力的可解释性模块增强了透明度和解释性。此外,论文还展示了如何将这种可解释的AE模型集成到一个模块化的认知架构中,以支持iCub机器人在多人在线对话中的应用。通过用户研究,论文分析了不同解释方式对人类参与者感知机器人的影响。
原理
论文提出的可解释AE模型通过两个主要步骤实现:首先,通过设计并训练一个基于注意力的神经网络来优化先前的AE模型,从而提高分类准确性;其次,通过引入内置的可解释性模块,使得模型在估计收件人时能够提取并展示解释信息。这些解释信息包括图像显著性、面部与姿态的重要性以及时间帧的重要性,从而使得模型的决策过程更加透明和可理解。
流程
论文详细描述了可解释AE模型的工作流程,包括面部和姿态信息的处理、数据融合、以及通过带有注意力机制的循环神经网络进行最终的收件人估计。具体来说,面部信息通过视觉变换器处理,姿态信息通过多层感知机处理,然后通过一个中间网络融合这两种信息。最后,通过一个带有注意力机制的循环神经网络生成最终的收件人估计,并在此过程中提取解释信息。
应用
该研究的应用前景广泛,特别是在需要机器人参与复杂社交互动的场景中,如医院、学校、餐厅等。通过提供实时、多模态的解释,机器人能够更好地与人类用户建立信任和理解,从而提高其在社交环境中的适应性和效率。
