VoxAct-B:双臂机器人操作的新纪元 - 利用体素和语言模型实现精细操作

VoxAct-B: Voxel-Based Acting and Stabilizing Policy for Bimanual Manipulation

摘要

本文介绍了一种名为VoxAct-B的创新方法,用于解决双臂机器人的精细操作问题。该方法利用视觉语言模型(VLMs)来优先处理场景中的关键区域,并通过重建体素网格来实现更高效的政策学习。VoxAct-B在模拟环境中展示了优于现有基线的性能,并在真实世界的开抽屉和开罐任务中得到了验证。该研究不仅提出了一种新的体素基方法,还扩展了RLBench基准,以支持双臂操作任务,展示了在复杂操作任务中的应用前景。

原理

VoxAct-B的核心在于利用视觉语言模型(VLMs)来识别和裁剪场景中的关键区域,从而减少体素网格的物理尺寸,提高体素分辨率,而不会增加计算成本。这种方法通过引入空间等变性,提高了样本效率和任务泛化能力。具体来说,VLMs首先通过文本查询识别对象,然后使用基础图像分割模型获取对象的分割掩码和姿态,进而确定每个手臂的角色(稳定或操作)。接着,将裁剪后的体素网格和语言目标输入到双臂操作策略中,以控制操作和稳定手臂的动作。

流程

VoxAct-B的工作流程包括以下步骤:

  1. 使用VLMs从RGB图像和语言目标中提取前摄像头图像和文本查询。
  2. VLMs输出对象相对于前摄像头的姿态,确定语言目标和每个手臂的角色。
  3. 使用对象的位置和RGB-D图像重建体素网格,覆盖αx^3米的工作空间。
  4. 将放大后的体素网格、语言目标、双臂的自身感知数据和手臂ID输入到操作策略πa和稳定策略πs中。
  5. 策略预测下一个最佳体素的离散姿态、夹爪打开动作、碰撞避免标志和手臂ID,以进行精细的双臂操作。

应用

VoxAct-B方法在家庭和工业环境中具有广泛的应用前景,特别是在需要双手协调和高精度操作的任务中,如切割食物、打开瓶子和包装箱子。该方法的高效性和泛化能力使其成为未来双臂机器人操作任务的重要研究方向。