Hyper-MORL:高效学习多目标连续机器人控制Pareto集合的先进算法
摘要
本文介绍了一种名为Hyper-MORL的先进多目标强化学习(MORL)算法,该算法旨在解决具有多个冲突目标的连续机器人控制问题。传统的MORL算法在处理这类问题时,通常需要搜索大量的Pareto最优深度策略,这非常耗费资源。Hyper-MORL通过使用单一的超网络(hypernet)学习Pareto集合的连续表示,从而在高度维度的策略参数空间中直接生成各种根据用户偏好训练良好的策略网络,大大提高了资源效率。实验结果表明,Hyper-MORL在七个多目标连续机器人控制问题上与两种最先进的MORL算法相比,实现了最佳的整体性能和最少的训练参数。此外,研究还发现Pareto集合在高维参数空间中可以很好地被一条曲线或曲面近似,这一发现为设计新的MORL算法提供了有价值的见解。
Read more...








