"重塑深度强化学习:NaP方法的创新与应用"

Normalization and effective learning rates in reinforcement learning

摘要

本文探讨了深度强化学习和持续学习中归一化层的复兴,以及它们在改善损失景观条件和对抗高估偏差方面的多样化益处。然而,归一化引入了一个微妙但重要的副作用:网络参数范数的增长与有效学习率的衰减之间的等价性。这在持续学习环境中变得成问题,因为由此产生的有效学习率调度可能会相对于学习问题的时标过快地衰减到接近零。本文提出了一种简单的重参数化方法,称为Normalize-and-Project(NaP),它将归一化层的插入与权重投影耦合,确保在整个训练过程中有效学习率保持恒定。这一技术不仅作为理解深度强化学习中学习率调度的强大分析工具,而且作为一种提高合成可塑性损失基准以及Arcade Learning Environment的单任务和顺序变体的鲁棒性的手段。本文还展示了该方法可以轻松应用于流行的架构,如ResNets和transformers,并在常见静态基准测试中恢复甚至略微提高基础模型的性能。

原理

NaP方法的核心在于通过归一化层和权重投影的结合,明确地控制学习率调度。归一化层确保网络参数的范数增长不会导致有效学习率的衰减,而权重投影则通过将权重参数投影到一个固定范数半径上来维持这一效果。这种结合不仅防止了参数范数无限增长导致的有效学习率衰减问题,还确保了网络在非平稳问题中的适应能力。通过这种机制,NaP能够在不显式正则化的情况下,提高深度强化学习算法在非平稳环境中的性能。

流程

NaP的工作流程包括两个主要步骤:首先,在网络架构中的非线性之前插入归一化层;其次,在训练过程中定期将网络的权重投影到具有固定范数的球面上。算法1详细描述了这一过程。例如,在训练Rainbow代理时,NaP在每个任务变化时重置优化器状态和调度,使用如附录B.2所述的余弦调度。在每个游戏训练20M帧后,代理通过这一周期两次,不重置连续代理之间的参数,但重置优化器。

应用

NaP方法的应用前景广泛,特别适用于需要高度适应新信息的深度强化学习(RL)和持续学习(CL)场景。由于其能够保持网络的适应性(即可塑性),NaP在处理非平稳问题和动态环境变化时表现出色。此外,该方法的通用性允许其应用于多种网络架构,包括但不限于ResNets和transformers,这进一步扩展了其在不同领域和任务中的应用潜力。