探索Meta-Gradient Search Control:提升Dyna风格规划效率的新方法
摘要
本文探讨了强化学习(RL)系统在从环境的不完美模型中学习时如何保持样本效率的问题。特别是在资源受限和环境动态不断变化的持续设置中,这一挑战尤为突出。为了解决这些挑战,本文引入了一种在线的元梯度算法,该算法调整在Dyna风格规划期间查询状态的概率。研究比较了这种元梯度方法与采用传统采样策略的基线的综合经验性能。结果表明,该方法提高了规划过程的效率,从而提高了整体学习过程的样本效率。总体而言,我们观察到我们的元学习解决方案避免了传统规划方法的几个病理问题,如采样不准确的转换和那些阻碍信用分配的问题。我们相信这些发现对于未来设计大规模基于模型的RL系统可能非常有用。
原理
Meta-Gradient Search Control(MGSC)算法的核心在于评估不同策略对其下游规划过程效率的改善能力。MGSC通过元损失函数来反映最大化规划效率的总体愿望,这里的“效率”描述了在固定数量的规划更新下,价值估计向其最优固定点的收缩程度。元损失函数通过计算参数更新前后的欧氏距离来衡量规划更新的效率。由于最优参数不可直接获得,MGSC使用从环境中直接获得的经验来近似这些参数,从而优化搜索控制策略。
流程
MGSC算法的工作流程包括以下步骤:首先,获取初始状态;然后,在每个时间步,采取ϵ-greedy动作,获取下一个状态和奖励;接着,更新模型;进行直接更新和k次规划更新;最后,构造规划后的参数和近似目标参数,并使用Adam优化器更新η以最小化MGSC元损失。具体示例可以在算法1中找到,该算法详细描述了MGSC在Dyna中的应用过程。
应用
MGSC算法在非平稳、随机域中的实验结果表明,其相对于采用固定搜索控制策略的基线,具有更高的样本效率。这表明MGSC在设计大规模基于模型的RL系统中具有广泛的应用前景,特别是在需要高效利用有限资源和适应环境变化的场景中。
