探索未知:TLDR——一种基于时间距离的无监督目标条件强化学习方法

TLDR: Unsupervised Goal-Conditioned RL via Temporal Distance-Aware Representations

摘要

本文介绍了一种名为TLDR的无监督目标条件强化学习(GCRL)方法,该方法利用时间距离感知表示(Temporal Distance-aware Representations)来提高机器人在复杂环境中的探索能力和目标达成策略学习。TLDR通过选择远离当前状态的目标来启动探索,并基于时间距离计算内在探索奖励和目标达成奖励。实验结果表明,TLDR在模拟机器人运动环境的六个场景中显著优于先前的无监督GCRL方法,能够覆盖更广泛的状态空间。

原理

TLDR的核心在于利用时间距离(即两个状态之间所需的最少环境步骤数)来指导探索和目标达成策略的学习。具体来说,TLDR通过以下方式实现其先进性:

  1. 目标选择:选择与当前访问状态时间距离最远的状态作为探索目标,以扩大探索范围。
  2. 探索策略:学习一个探索策略,该策略倾向于访问与已访问状态具有较大时间距离的新状态,从而有效地覆盖更大的状态空间。
  3. 目标达成策略:学习一个目标条件策略,该策略旨在最小化到达目标的时间距离,从而提高目标达成的效率。 通过这种方式,TLDR不仅能够探索更多未访问的状态,还能有效地学习如何快速达成各种目标。

流程

TLDR的工作流程包括以下几个关键步骤:

  1. 学习时间距离感知表示:首先,学习一个状态编码器,该编码器将状态映射到包含时间距离信息的潜在空间。
  2. 选择探索目标:从已访问状态中选择时间距离最远的状态作为探索目标。
  3. 执行目标条件策略:使用目标条件策略尝试达成选定的目标,该策略学习如何最小化到达目标的时间距离。
  4. 执行探索策略:使用探索策略收集新的状态轨迹,该策略倾向于访问与已访问状态具有较大时间距离的新状态。 通过这些步骤,TLDR能够在无监督的情况下有效地探索环境和学习目标达成策略。

应用

TLDR的方法在机器人学和自动化领域具有广泛的应用前景。由于其能够在无外部监督的情况下学习多样化的技能,TLDR可以用于各种复杂的机器人任务,如自主导航、物体操作和环境交互。此外,TLDR的方法还可以扩展到其他需要复杂探索和决策的领域,如自动驾驶和智能游戏。