HACMan++:通过空间基础运动原语实现机器人操作任务的先进策略泛化

HACMan++: Spatially-Grounded Motion Primitives for Manipulation

摘要

本文介绍了一种名为HACMan++的方法,该方法通过使用空间基础的运动原语来改进机器人操作任务中的策略泛化。传统的端到端机器人学习方法在处理物体姿态或几何形状变化时往往不够鲁棒。HACMan++提出了一种包含三个组成部分的动作表示:执行何种原语(如抓取或推动)、原语在何处接地(例如夹持器与世界的接触点)以及如何执行原语动作,如推动方向或抓取方向的参数。这些组成部分定义了一种新的离散-连续动作空间,用于强化学习。该框架使机器人代理能够学习将不同的运动原语串联起来,并选择适当的原语参数以完成长周期的操作任务。通过在环境中的空间位置接地原语,我们的方法能够有效地跨越物体形状和姿态变化进行泛化。我们的方法在复杂场景中显著优于现有方法,特别是在需要高水平顺序推理和物体泛化的场景中。通过零样本模拟到真实的转移,我们的策略在具有挑战性的真实世界操作任务中取得了成功,并泛化到未见过的物体。

原理

HACMan++的核心在于使用一组参数化的空间基础运动原语来表示动作空间。这些原语包括抓取、放置、推动等基本操作动作。每个原语由三个关键部分组成:原语类型、原语位置(原语将在何处接地)和原语参数。这些组成部分共同构成了强化学习策略的动作空间。我们的方法通过强化学习训练策略,使其能够选择一系列原语(及其对应的位置和参数)来执行长周期的操作任务。在任务中,物体被放置在一个初始姿态的容器中,并必须被移动到目标姿态的另一个容器中。我们通过可视化每个点的学习Q值(选择该点作为每个原语的接地位置的有效性)来展示空间接地的情况。

流程

HACMan++的工作流程包括以下步骤:

  1. 输入点云观察,通过分割风格点云网络输出每个点的演员特征。
  2. 将这些特征输入到每个原语的MLP中,输出每个点和每个原语的运动参数。
  3. 通过分割风格点云批评特征提取器提取每个点的批评特征。
  4. 将每个点的运动参数与批评特征连接,输入到MLP中计算每个点和每个原语的Q值。
  5. 生成一个包含所有点和所有原语的Q值的批评地图。
  6. 在训练期间,策略通过从Q值的softmax分布中采样来选择原语类型和位置,以平衡探索和利用。
  7. 在评估期间,选择具有最高Q值的原语类型、位置和运动参数来执行机器人操作。

应用

HACMan++的应用前景广泛,特别是在需要复杂操作技能和物体泛化的领域。该方法不仅在模拟环境中表现出色,还能够通过零样本转移成功应用于真实世界的操作任务。此外,该方法的初步结果表明,它有可能泛化到其他机器人形态,如灵巧手操作任务。这表明HACMan++具有高度的通用性和适应性,能够应对多样化的操作挑战。