PhIHP:利用物理知识优化强化学习的效率与性能

Physics-Informed Model and Hybrid Planning for Efficient Dyna-Style Reinforcement Learning

摘要

本文介绍了一种名为PhIHP的新型强化学习方法,该方法通过利用系统动力学的部分物理知识来解决在实际应用中强化学习面临的样本效率、推理时间和渐近性能之间的权衡问题。PhIHP方法通过学习一个物理信息模型来提高样本效率,并从该模型生成虚构轨迹以学习无模型策略和Q函数。此外,提出了一种混合规划策略,结合学习到的策略和Q函数与学习到的模型,以提高规划中的时间效率。通过实际演示,本文展示了PhIHP方法在样本效率、时间效率和性能方面优于现有最先进的方法。

原理

PhIHP方法的核心在于三个主要机制:

  1. 物理信息模型:利用近似的物理模型与学习的数据驱动残差相结合,以匹配真实动力学。这种物理先验提高了PhIHP的样本效率,而学习到的残差则提高了渐近性能。
  2. 虚构中的无模型强化学习(MFRL):通过在从学习模型生成的轨迹上使用TD3进行演员-评论家方式的训练,保持了样本效率。物理信息模型中的减少偏差使得在虚构中学习有效策略成为可能,这在数据驱动模型中是具有挑战性的。
  3. 混合规划策略:在学习到的模型、策略和Q函数中结合使用。在虚构中学习到的更好模型和策略改善了性能与推理时间之间的权衡。

流程

PhIHP的工作流程包括三个主要阶段:

  1. 学习物理信息模型:首先从环境中的少量交互学习一个物理信息模型,并使用它来生成用于训练策略和Q函数的虚构轨迹。
  2. 虚构中的策略和Q函数学习:使用从物理信息模型生成的虚构数据集来训练参数化策略πθ(st)和Q函数Qθ(st, at),使用TD3算法。
  3. 混合规划:在推理时,PhIHP利用混合规划方法,结合物理信息模型、学习到的策略和Q函数。规划器首先从学习到的策略输出中采样Nπ个候选动作,并从均匀分布中补充Nrand个探索性候选动作。然后,使用学习到的模型估计结果轨迹,并使用即时奖励函数和Q值评估每个轨迹。

应用

PhIHP方法在连续控制任务中显示出优越的性能,特别是在需要稀疏奖励和早期终止的环境中。其高效的样本使用、快速的推理时间和优秀的渐近性能使其在机器人控制等实时应用领域具有广泛的应用前景。未来,PhIHP有望应用于更复杂的控制任务,其中已知的方程与系统真实动力学之间存在更大的差异。