"GENIMA:通过图像生成模型解锁视觉运动控制的新纪元"
摘要
本文介绍了一种名为GENIMA的新型行为克隆代理,它通过微调Stable Diffusion模型来“绘制关节动作”,并将这些图像输入到一个控制器中,该控制器将视觉目标转换为一系列关节位置。GENIMA在25个RLBench任务和9个真实世界操作任务中进行了研究,发现通过将动作提升到图像空间,互联网预训练的扩散模型可以生成优于现有视觉运动控制方法的策略,特别是在场景扰动和泛化到新对象方面。此外,该方法在缺乏深度、关键点或运动规划器等先验知识的情况下,与3D代理竞争。
原理
GENIMA的核心在于其两阶段过程:首先,通过微调Stable Diffusion模型(使用ControlNet)来绘制目标关节位置图像,这些关节位置来自演示中的t + K时间步,每个关节渲染为一个独特的彩色球体。其次,这些目标被输入到一个ACT控制器中,该控制器将视觉目标转换为一系列可执行的关节位置。这种简单的两阶段过程将语义和任务级推理卸载到一个通用的图像生成模型,而控制器则接近由视觉目标指示的附近关节位置。
流程
GENIMA的工作流程包括两个主要步骤:首先,扩散代理接收RGB观察和语言目标作为输入,并输出带有目标关节位置的图像。这些目标关节位置是从演示中的未来时间步t + K采样的。然后,这些目标图像被输入到控制器中,控制器使用Transformer架构来预测一系列的K个关节动作,并按顺序执行这些动作,或者在闭环方式中查询扩散代理。控制器在NVIDIA RTX 3090上以约50 Hz的频率运行。
应用
GENIMA的应用前景广泛,特别是在需要视觉运动控制的机器人操作任务中。由于其对场景扰动的鲁棒性和对新对象的泛化能力,GENIMA可以应用于复杂的现实世界任务,如动态运动、全身控制、透明和可变形对象的操作。此外,GENIMA的框架可以适应其他实体,并绘制物理属性如力和加速度,进一步扩展其应用范围。
