"Gradient Boosting Reinforcement Learning: 强化学习的新前沿"

Posted on 2024-07-11 in CS.AI • 23 words • 1 minute read

Last updated on 2024-07-12

摘要

本文介绍了一种名为Gradient Boosting Reinforcement Learning (GBRL)的新框架，该框架将梯度提升树（GBT）的优势扩展到强化学习（RL）领域。GBT在监督学习任务中因其解释性、对分类特征的支持以及适用于边缘设备的轻量级实现而广受欢迎。然而，GBT在在线学习场景中的应用，特别是在强化学习中，一直受到限制。GBRL框架通过实现多种actor-critic算法并与其神经网络（NN）对应算法进行性能比较，展示了GBT在RL中的可行性和潜力。此外，本文还引入了一种树共享方法，用于策略和价值函数，通过不同的学习率增强了学习效率。GBRL在具有结构化或分类特征的领域中表现出色，并提供了一个高性能的GPU加速实现，与广泛使用的RL库无缝集成。

原理

GBRL框架的核心在于将GBT作为函数逼近器引入到RL中。GBT通过迭代地最小化预期损失来训练模型，每次迭代中，模型通过添加新的决策树来逐步改进。在RL的上下文中，目标是通过试错学习来优化累积奖励。GBRL通过直接在决策树函数类上优化目标，实现了这一过程。具体来说，GBRL通过迭代地增长决策树集合来优化策略和价值函数，每个新树的添加都是为了最小化与当前参数梯度的距离。这种方法使得GBRL能够有效地处理非平稳状态分布和在线学习，同时保持了GBT的解释性和处理分类数据的能力。

流程

GBRL的工作流程包括初始化参数、收集轨迹数据、计算梯度、构建数据集并拟合决策树，以及更新参数。具体步骤如下：

初始化参数θ0、学习率、经验缓冲区B、总训练迭代次数K等。
使用当前策略πθk−1收集轨迹τ(k)和奖励(r0, …, rT)(k)。
将轨迹和奖励添加到经验缓冲区B。
对于每次更新u，从经验缓冲区B中采样一批数据，计算梯度g。
构建数据集D = {(sn, gn)}并拟合决策树hk。
更新参数θk，重复步骤2至6，直到达到总迭代次数K。

应用

GBRL框架为RL实践者提供了一个强大的工具，特别是在需要解释性、适用于结构化数据或部署在低计算设备上的应用场景。GBRL在库存管理、交通信号优化、网络优化、资源分配和机器人等领域的应用前景广阔。此外，GBRL的高性能GPU加速实现使其能够处理复杂的、高维度的RL任务，进一步扩展了其在实际应用中的潜力。