LEQ:一种基于模型的离线强化学习方法,有效解决长视野任务挑战

Tackling Long-Horizon Tasks with Model-based Offline Reinforcement Learning

摘要

本文介绍了一种基于模型的离线强化学习方法——Lower Expectile Q-learning(LEQ),旨在解决从有限静态数据中学习的问题。LEQ通过使用学习到的模型生成虚拟轨迹,并利用expectile回归对λ-returns进行处理,有效减少了模型基于价值估计中的高偏差,从而显著提升了在长视野任务(如D4RL AntMaze任务)中的表现,甚至能够与无模型方法相媲美。实验结果表明,LEQ在长视野任务中明显优于先前的基于模型的离线强化学习方法,并在NeoRL基准和D4RL MuJoCo Gym任务中达到了与最先进的基于模型和无模型的离线强化学习方法相媲美的性能。

原理

LEQ的核心在于使用expectile回归来减少模型基于价值估计中的高偏差。通过在策略和Q函数训练中使用较小的τ值的expectile回归,LEQ能够有效地实现保守的Q值估计。此外,为了更好地处理长视野任务,LEQ采用λ-returns(即TD(λ)目标)来优化策略和Q函数,这允许策略直接从低偏差的多步返回中学习。通过这种方式,LEQ能够在模型生成的数据上实现保守的价值估计,同时减少长视野任务中的价值估计噪声。

流程

LEQ的工作流程包括以下几个关键步骤:

  1. 预训练模型和策略:首先从离线数据中预训练世界模型和初始策略。
  2. 数据集扩展:使用预训练的模型生成短的虚拟滚动数据,并将其添加到训练数据集中。
  3. 离线强化学习算法:在扩展的数据集上执行离线强化学习算法,并重复数据集扩展和算法执行步骤。
  4. 更新批评家和演员:使用离线和模型生成的数据更新批评家Q函数,仅使用模型生成的数据更新演员策略。 通过这些步骤,LEQ能够有效地利用模型生成的数据来扩展训练数据集,从而在长视野任务中实现更好的性能。

应用

LEQ的应用前景广泛,特别适用于需要从静态数据集中学习的场景,如机器人导航、自动驾驶汽车等。由于LEQ能够在没有环境交互的情况下从多样化的数据中学习,因此它为自主代理提供了一种有效的方式来利用非专家生成的数据,从而提高了自主代理的学习能力和泛化能力。