"突破数据限制:离线强化学习中的奖励填补技术"

Offline Reinforcement Learning with Imputed Rewards

摘要

本文介绍了一种在离线强化学习(Offline Reinforcement Learning, ORL)中处理奖励信号缺失问题的新方法。在许多实际应用中,由于成本、安全或缺乏精确的模拟环境,与环境的交互必须严格限制,这使得传统的强化学习方法难以应用。本文提出的解决方案是一种简单的奖励模型,能够从非常有限的带有奖励标签的环境转换样本中估计奖励信号。该模型随后用于为大量无奖励标签的转换填补奖励,从而使ORL技术得以应用。实验结果显示,仅使用原始数据集中1%的带有奖励标签的转换,学习到的奖励模型能够为剩余99%的转换填补奖励,从而训练出高性能的代理。

原理

本文提出的奖励模型是一个简单的两层多层感知机(MLP),通过监督学习训练,目标是最小化训练集上的均方误差。该模型从一小部分带有奖励标签的转换数据中学习,然后用于预测大量无奖励标签转换的奖励值。这种方法的关键先进性在于,它能够在数据极度稀缺的情况下,通过模型填补缺失的奖励信号,从而扩展了ORL的应用范围。

流程

  1. 收集一小部分带有奖励标签的环境转换数据(D↕)和大量无奖励标签的转换数据(Du)。
  2. 使用D↕训练奖励模型MLP,目标是使模型预测的奖励与实际奖励之间的均方误差最小。
  3. 利用训练好的奖励模型为Du中的转换填补奖励,构建一个包含大量填补奖励的离线RL数据集(D)。
  4. 使用D训练离线RL代理,如TD3BC和IQL。 实验中,仅使用1%的奖励标签转换数据进行训练,其余99%的转换通过模型填补奖励,显著提高了代理的性能。

应用

该方法在需要严格限制与环境交互的应用中具有广泛的应用前景,特别是在数据稀缺或奖励信号难以获取的场景。例如,在机器人控制、自动驾驶和复杂系统管理等领域,这种方法能够有效提升代理的学习效率和性能。