探索未来：PerAct2——引领双臂机器人操作任务的新纪元

Posted on 2024-06-29 in CS.AI • 21 words • 1 minute read

Last updated on 2024-07-05

摘要

本文由Markus Grotz、Mohit Shridhar、Tamim Asfour和Dieter Fox等人共同撰写，题为“PerAct2: Benchmarking and Learning for Robotic Bimanual Manipulation Tasks”。论文主要针对双臂机器人操作任务中的空间和时间协调问题，提出了一种新的模拟基准测试和学习方法。该研究通过扩展RLBench基准，引入了13个新的双臂操作任务和23种独特的任务变体，每个任务都需要高度的协调和适应性。此外，论文还提出了一种基于语言条件的行为克隆代理——PerAct2，该方法能够学习和执行双臂6自由度操作任务。PerAct2的创新网络架构有效地整合了语言处理与动作预测，使机器人能够根据用户指定的目标理解和执行复杂的双臂任务。

原理

PerAct2的核心在于其创新的网络架构，该架构结合了语言处理和动作预测，使得机器人能够理解和执行复杂的双臂任务。具体来说，PerAct2接收来自多个RGB-D摄像机的数据，通过构建体素网格（voxel grid）来整合这些数据。体素网格是一种三维空间表示方法，能够捕捉环境的详细信息。接着，PerAct2使用PerceiverIO变换器来学习体素级别的特征和语言指令的特征。这种变换器能够处理大量的输入数据，并从中提取有用的信息。最后，PerAct2为每个机器人手臂输出一个离散的动作，包括六自由度的末端执行器姿态、夹爪状态以及是否使用碰撞避免的标志。这种设计使得PerAct2能够在不同的视角下保持鲁棒性，并且能够适应不同的机器人平台。

流程

PerAct2的工作流程可以分为几个关键步骤：首先，系统接收来自多个RGB-D摄像机的数据和任务描述作为输入。然后，通过体素化过程将这些数据合并成一个体素网格。接下来，使用PerceiverIO变换器学习体素和语言级别的特征。最后，为每个机器人手臂输出一个离散的动作，包括六自由度的末端执行器姿态、夹爪状态和碰撞避免标志。例如，在执行“将瓶子放入冰箱”的任务时，机器人首先需要打开冰箱门，然后使用双臂协调地抓取瓶子并将其放入冰箱内。整个过程中，PerAct2通过其高效的网络架构确保了任务的顺利执行。

应用

PerAct2的应用前景广泛，特别是在需要复杂双臂协调操作的场景中，如家庭服务、医疗辅助、工业装配等。其能够理解和执行基于语言指令的复杂任务，使得机器人在这些领域中的应用更加灵活和智能。随着技术的进一步发展和优化，PerAct2有望在未来的机器人操作任务中发挥更大的作用，推动双臂机器人技术的实际应用和普及。