分层强化学习:在无限期平均奖励设置下的线性可解马尔可夫决策过程的新方法
摘要
本文介绍了一种新颖的分层强化学习方法,用于在无限期平均奖励设置下的线性可解马尔可夫决策过程(LMDPs)。与以往的工作不同,我们的方法允许同时学习低级和高级任务,而不对低级任务施加限制性限制。我们的方法依赖于状态空间的划分,这些划分创建了更容易解决的子任务,并通过这些划分之间的等价性来更有效地学习。然后,我们利用低级任务的组合性来精确表示高级任务的价值函数。实验表明,我们的方法可以比平坦的平均奖励强化学习快一个或几个数量级。
Read more...








