"ROER: 通过正则化优化经验回放,提升强化学习性能"
摘要
本文介绍了一种名为“Regularized Optimal Experience Replay (ROER)”的新型经验回放方法,该方法通过正则化强化学习目标函数和使用f-散度正则化器,优化了经验回放中的优先级分配问题。ROER通过将离线数据分布向在线最优分布调整,利用TD误差进行优先级分配,从而提高了在线强化学习(RL)算法的性能。实验结果显示,ROER在与Soft Actor-Critic (SAC)算法结合使用时,在连续控制任务中表现优异,尤其在困难环境中通过预训练显示出显著的性能提升。
原理
ROER的核心在于通过正则化强化学习目标函数,利用f-散度正则化器的对偶形式,实现离线数据分布向在线最优分布的调整。具体来说,ROER通过引入KL散度作为正则化器,形成一个新的优先级分配方案。该方案通过计算TD误差,调整回放缓冲中的数据分布,使其趋向于最优在线分布,从而优化RL算法的性能。
流程
ROER的工作流程包括初始化Q网络、策略网络和价值网络,以及一个包含离线数据的回放缓冲区。在每个时间步,更新回放缓冲区,并根据公式16更新优先级。随后,使用更新后的优先级训练Q网络和价值网络,并更新策略网络。具体实现细节和算法步骤在算法1中有详细描述。
应用
ROER的应用前景广泛,尤其在需要高数据效率和稳定性的连续控制任务中。此外,ROER通过预训练在困难环境中的表现,显示了其在离线到在线微调场景中的潜力。未来工作可以探索其在离线设置中的应用,以及动态调整损失温度的方法。
