"ROER: 通过正则化优化经验回放,提升强化学习性能"
摘要
本文介绍了一种名为“Regularized Optimal Experience Replay (ROER)”的新型经验回放方法,该方法通过正则化强化学习目标函数和使用f-散度正则化器,优化了经验回放中的优先级分配问题。ROER通过将离线数据分布向在线最优分布调整,利用TD误差进行优先级分配,从而提高了在线强化学习(RL)算法的性能。实验结果显示,ROER在与Soft Actor-Critic (SAC)算法结合使用时,在连续控制任务中表现优异,尤其在困难环境中通过预训练显示出显著的性能提升。
Read more...








