"Gradient Boosting Reinforcement Learning: 强化学习的新前沿"

Gradient Boosting Reinforcement Learning

摘要

本文介绍了一种名为Gradient Boosting Reinforcement Learning (GBRL)的新框架,该框架将梯度提升树(GBT)的优势扩展到强化学习(RL)领域。GBT在监督学习任务中因其解释性、对分类特征的支持以及适用于边缘设备的轻量级实现而广受欢迎。然而,GBT在在线学习场景中的应用,特别是在强化学习中,一直受到限制。GBRL框架通过实现多种actor-critic算法并与其神经网络(NN)对应算法进行性能比较,展示了GBT在RL中的可行性和潜力。此外,本文还引入了一种树共享方法,用于策略和价值函数,通过不同的学习率增强了学习效率。GBRL在具有结构化或分类特征的领域中表现出色,并提供了一个高性能的GPU加速实现,与广泛使用的RL库无缝集成。

原理

GBRL框架的核心在于将GBT作为函数逼近器引入到RL中。GBT通过迭代地最小化预期损失来训练模型,每次迭代中,模型通过添加新的决策树来逐步改进。在RL的上下文中,目标是通过试错学习来优化累积奖励。GBRL通过直接在决策树函数类上优化目标,实现了这一过程。具体来说,GBRL通过迭代地增长决策树集合来优化策略和价值函数,每个新树的添加都是为了最小化与当前参数梯度的距离。这种方法使得GBRL能够有效地处理非平稳状态分布和在线学习,同时保持了GBT的解释性和处理分类数据的能力。

流程

GBRL的工作流程包括初始化参数、收集轨迹数据、计算梯度、构建数据集并拟合决策树,以及更新参数。具体步骤如下:

  1. 初始化参数θ0、学习率、经验缓冲区B、总训练迭代次数K等。
  2. 使用当前策略πθk−1收集轨迹τ(k)和奖励(r0, …, rT)(k)。
  3. 将轨迹和奖励添加到经验缓冲区B。
  4. 对于每次更新u,从经验缓冲区B中采样一批数据,计算梯度g。
  5. 构建数据集D = {(sn, gn)}并拟合决策树hk。
  6. 更新参数θk,重复步骤2至6,直到达到总迭代次数K。

应用

GBRL框架为RL实践者提供了一个强大的工具,特别是在需要解释性、适用于结构化数据或部署在低计算设备上的应用场景。GBRL在库存管理、交通信号优化、网络优化、资源分配和机器人等领域的应用前景广阔。此外,GBRL的高性能GPU加速实现使其能够处理复杂的、高维度的RL任务,进一步扩展了其在实际应用中的潜力。