探索周期性激活函数在强化学习中的频率与泛化能力
摘要
本文探讨了周期性激活函数在强化学习中的应用,特别是在深度强化学习算法中的样本效率和稳定性提升。文章通过实证分析,发现周期性激活函数虽然提高了样本效率,但在面对状态观测噪声时,其泛化能力较差,尤其是在与ReLU激活函数的网络相比时。此外,文章还展示了通过权重衰减正则化可以部分缓解周期性激活函数的过拟合问题,使得价值函数既能快速学习又能更好地泛化。
原理
周期性激活函数,也称为学习傅里叶特征,通过在神经网络架构中添加周期性激活函数来学习周期性表示。这些激活函数可以被视为一种学习傅里叶特征,取代了Rahimi & Recht (2007)中随机生成的固定权重,使用可训练参数。文章通过实验发现,无论初始频率如何,周期性表示在训练过程中始终收敛到高频表示。这种频率的增长主要是由于网络参数范数的增长,这是深度强化学习中广泛观察到的现象。
流程
文章通过在DeepMind控制基准上进行实验,详细说明了周期性激活函数的工作流程。实验集中在连续控制任务上,使用的是一种基于软演员-评论家学习算法的架构。实验结果显示,周期性激活函数在训练初期能够提高样本效率,但随着训练的进行,这些高频特征导致策略的鲁棒性降低。特别是在状态观测中加入噪声时,周期性激活函数的性能下降明显。通过引入权重衰减正则化,可以在一定程度上改善这一问题,使得周期性激活函数在保持快速学习的同时,也能提高对输入观测扰动的鲁棒性。
应用
周期性激活函数在强化学习中的应用前景广泛,特别是在需要快速适应和高效学习的场景中。然而,其对噪声的敏感性限制了其在需要高度泛化能力的任务中的应用。通过进一步的研究和优化,如权重衰减正则化的应用,可以期待周期性激活函数在更多复杂的强化学习任务中发挥作用,尤其是在需要平衡快速学习和泛化能力的环境中。
