探索人机情感交互:差异结果训练在社交辅助机器人中的应用与前景
摘要
本文探讨了在人机交互中,通过情感语言交互和差异结果训练(Differential Outcomes Training, DOT)来促进人机间的相互学习。研究基于儿童与照顾者的互动模式,设计了一个模拟机器人尝试学习如何最佳地传达其内部需求,同时人类“照顾者”学习如何满足机器人的需求。研究结果显示,使用差异结果训练(DOT)相比非差异结果训练(Non-DOT)显著提高了人机间的学习效率和准确性。此外,机器人采用探索-利用策略选择相比纯利用策略选择进一步提升了学习效果。这些发现对于在治疗和教育领域中使用社交辅助机器人(SAR)具有重要意义。
原理
本文的核心在于通过情感语言交互和差异结果训练(DOT)来增强人机间的相互学习。DOT是一种基于隐式或显式奖励的关联学习方法,通过特定的刺激-反应-结果关联来加强学习。在实验中,模拟机器人Reachy通过表达不同的“babble”声音来传达其内部需求,而人类参与者则需要通过这些声音来判断并提供正确的对象以满足机器人的需求。机器人通过Q-学习算法来选择最优的“babble”声音,同时根据人类提供的对象来更新其行为策略。这种双向的学习过程模拟了儿童与照顾者之间的互动,通过差异化的结果反馈来加强学习效果。
流程
实验的工作流程如下:首先,Reachy根据其内部需求选择一个“babble”声音来表达其需求。人类参与者通过这些声音来判断Reachy的需求,并提供相应的对象。如果提供的对象正确,Reachy会通过特定的情感表达(如欢快的声音和动作)来反馈,否则会表达悲伤的反馈。这种差异化的反馈帮助人类参与者更好地理解Reachy的需求,并调整其行为以提供正确的对象。整个过程通过多次迭代来优化双方的相互学习效果。
应用
本文的研究成果在多个领域具有广泛的应用前景,特别是在社交辅助机器人(SAR)在治疗和教育领域的应用。通过提高人机间的相互学习效率,可以增强机器人在认知干预、语言学习和情感支持等方面的效果。此外,这种基于情感语言交互和差异结果训练的方法也为未来开发更加智能和互动性强的机器人系统提供了新的思路和方法。
![Human-Robot Mutual Learning through Affective-Linguistic Interaction and Differential Outcomes Training [Pre-Print]](https://arxiv-research-1301205113.cos.ap-guangzhou.myqcloud.com/images/2407.01280v1.pdf_0.jpg)