探索未来:Hindsight Preference Learning在离线偏好强化学习中的创新应用

Hindsight Preference Learning for Offline Preference-based Reinforcement Learning

摘要

本文介绍了一种名为“Hindsight Preference Learning (HPL)”的离线偏好强化学习方法,旨在通过人类对轨迹片段的偏好来优化策略。传统的离线偏好强化学习方法依赖于从轨迹偏好注释中提取逐步奖励信号,假设偏好与累积的马尔可夫奖励相关。然而,这些方法未能捕捉到数据注释的整体视角:人类通常根据整体结果而非即时奖励来评估一系列动作的可取性。为了解决这一挑战,本文提出了一种模型,该模型使用基于轨迹片段未来结果(即事后信息)的奖励来模拟人类偏好。对于下游的强化学习优化,每一步的奖励是通过对可能的未来结果进行边际化计算的,这些结果的分布是通过使用离线数据集训练的变分自编码器来近似的。HPL方法能够充分利用大量未标记数据集中的轨迹数据,通过全面的实证研究证明了HPL在各种领域中提供稳健和优势奖励的有效性。

原理

HPL的核心思想是开发一种事后偏好模型,该模型使用基于状态s、动作a和从(s, a)开始的未来轨迹(即事后信息)的奖励函数来模拟人类偏好。具体来说,给定一个长度为H的轨迹σ1:H = (s1, a1, s2, a2, …, sH, aH),对于1 ≤ t ≤ H,st, at的奖励由r(st, at|σt:t+k)给出。在标记未标记数据集时,通过对所有可能的事后信息进行边际化,计算每个状态-动作对的标量奖励信号,r(s, a) = ∫σ p(σ|s, a)r(s, a|σ)dσ。为了处理事后信息的高维性质,我们预训练一个变分自编码器来有效地表示事后信息,使得上述边际化在实践中可行。

流程

HPL的工作流程可以分为三个阶段:

  1. 预训练一个变分自编码器(VAE)来嵌入未来片段,使用未标记数据集Du中的数据。
  2. 使用偏好数据集Dp训练条件奖励函数rψ。
  3. 使用公式(9)标记未标记数据集,然后应用任何离线强化学习算法进行策略优化。 具体实现细节包括初始化VAE的编码器qθ、解码器pθ和先验fθ,并通过最大化证据下界(ELBO)来联合优化这些组件。在奖励学习阶段,使用嵌入zt作为σt:t+k的替代品进行偏好建模,并通过偏好数据集和交叉熵损失来优化rψ。在奖励标记阶段,使用先验分布fθ计算奖励,确保基于学习偏好的奖励塑造的有效性。

应用

HPL方法在离线偏好强化学习领域具有广泛的应用前景,特别是在需要从人类偏好中学习奖励函数的场景中。由于其能够捕捉人类偏好的整体视角并利用未标记数据集中的信息,HPL可以应用于大规模应用,如微调大型语言模型。此外,HPL的稳健性和优势奖励特性使其在各种复杂的决策任务中表现出色,特别是在存在数据分布不匹配的情况下。