分层强化学习:在无限期平均奖励设置下的线性可解马尔可夫决策过程的新方法

Hierarchical Average-Reward Linearly-solvable Markov Decision Processes

摘要

本文介绍了一种新颖的分层强化学习方法,用于在无限期平均奖励设置下的线性可解马尔可夫决策过程(LMDPs)。与以往的工作不同,我们的方法允许同时学习低级和高级任务,而不对低级任务施加限制性限制。我们的方法依赖于状态空间的划分,这些划分创建了更容易解决的子任务,并通过这些划分之间的等价性来更有效地学习。然后,我们利用低级任务的组合性来精确表示高级任务的价值函数。实验表明,我们的方法可以比平坦的平均奖励强化学习快一个或几个数量级。

原理

本文提出的方法通过将状态空间划分为多个子集,每个子集对应一个子任务,从而实现分层强化学习。这些子任务更容易解决,因为它们的状态空间更小。通过利用LMDPs的组合性质,即可以从先前解决的任务的解决方案中计算出新任务的解决方案而无需学习,本文的方法能够同时解决低级和高级任务。具体来说,通过解决这些子任务,可以组合它们的解决方案来形成高级任务的解决方案。这种方法的关键在于,它不仅分解了价值函数,还避免了在更新低级策略时引入非平稳性。

流程

  1. 将状态空间划分为多个子集,每个子集对应一个子任务。
  2. 解决每个子任务,得到子任务的最优价值函数。
  3. 利用子任务的价值函数组合成高级任务的价值函数。
  4. 通过实验验证方法的有效性,比较分层方法与平坦方法的性能。

应用

本文提出的分层强化学习方法在处理复杂任务时具有显著优势,特别是在需要分解任务以提高学习效率的场景中。这种方法可以应用于各种需要长期规划和复杂决策的领域,如机器人控制、游戏AI、自动驾驶等。通过提高学习效率和减少所需的样本数量,该方法有望在实际应用中发挥重要作用。