"突破数据限制:离线强化学习中的奖励填补技术"
摘要
本文介绍了一种在离线强化学习(Offline Reinforcement Learning, ORL)中处理奖励信号缺失问题的新方法。在许多实际应用中,由于成本、安全或缺乏精确的模拟环境,与环境的交互必须严格限制,这使得传统的强化学习方法难以应用。本文提出的解决方案是一种简单的奖励模型,能够从非常有限的带有奖励标签的环境转换样本中估计奖励信号。该模型随后用于为大量无奖励标签的转换填补奖励,从而使ORL技术得以应用。实验结果显示,仅使用原始数据集中1%的带有奖励标签的转换,学习到的奖励模型能够为剩余99%的转换填补奖励,从而训练出高性能的代理。
Read more...








