弥合模拟与现实:Human-Aware Vision-and-Language Navigation的突破
摘要
本文介绍了一种名为Human-Aware Vision-and-Language Navigation (HA-VLN)的新型导航任务,该任务通过结合动态人类活动和放松关键假设,扩展了传统的视觉-语言导航(VLN)框架。为了支持HA-VLN的研究,作者提出了Human-Aware 3D (HA3D)模拟器和Human-Aware Room-to-Room (HA-R2R)数据集。此外,还提出了两种多模态代理:Expert-Supervised Cross-Modal (VLN-CM)和Non-Expert-Supervised Decision Transformer (VLN-DT),利用跨模态融合和多样化的训练策略,在动态人类环境中进行有效导航。全面的评估结果强调了进一步研究以增强HA-VLN代理在现实世界中的鲁棒性和适应性的必要性。最终,这项工作为未来在具身AI和Sim2Real转移方面的研究提供了基准和见解,为在人类环境中更真实和适用的VLN系统铺平了道路。
原理
HA-VLN任务的核心在于通过引入动态人类活动和放松传统VLN框架的关键假设,来弥合模拟与现实之间的差距。HA-VLN通过以下方式改进了先前的框架:
- 采用有限的60°视野的自我中心动作空间,使代理能够基于类似人类的视觉感知做出决策。
 - 整合基于SMPL模型的3D人类运动模型的动态环境,代理必须实时感知和响应这些活动,同时保持安全距离。
 - 从次优专家演示中学习,这些演示提供了考虑动态环境的导航指导。
 
HA3D模拟器通过将自收集的人类活动和姿态模拟(HAPS)数据集与Matterport3D数据集相结合,生成动态环境。HA-R2R数据集扩展了R2R数据集,包含了人类活动描述。VLN-CM和VLN-DT代理的创新之处在于它们的跨模态融合模块,该模块动态地加权语言和视觉信息,增强了它们对不同模态的理解和利用。
流程
HA-VLN任务的工作流程涉及一个具身代理在一个动态环境中从初始位置导航到目标位置,遵循自然语言指令。代理在每个时间步评估其状态并执行一系列动作,每个动作导致新的状态和观察。代理必须适应环境中的人类活动,通过等待人类移动、调整路径或当路径清晰时继续前进,从而增强现实世界的适用性。
HA3D模拟器的工作流程包括:
- 整合HAPS数据集,该数据集包含145个人类活动描述,转换为435个详细的3D人类运动模型。
 - 使用交互式注释工具在90个建筑场景中的29个不同室内区域放置人类模型。
 - 使用Pyrender渲染具有高视觉真实感的人体。
 
VLN-CM和VLN-DT代理的工作流程涉及:
- 通过跨模态融合模块动态加权语言和视觉信息。
 - VLN-CM通过模仿专家演示学习,而VLN-DT则通过随机轨迹学习,无需专家监督。
 - 设计丰富的奖励函数以激励代理有效导航。
 
应用
HA-VLN任务的应用前景广泛,包括但不限于:
- 家庭助理机器人:能够在人类环境中导航并执行任务的机器人。
 - 公共空间导航:在机场、商场等公共空间中提供导航服务的机器人。
 - 虚拟现实和增强现实:在虚拟环境中提供导航指导,增强用户体验。
 - 自动驾驶车辆:在复杂的城市环境中导航,考虑行人动态。
 
随着技术的进一步发展,HA-VLN代理的鲁棒性和适应性将得到增强,使其在各种现实世界场景中更加实用和可靠。
