"创新结合在线策略与主动学习:构建成本效益高的代理奖励模型"
摘要
本文探讨了在强化学习与人类反馈(RLHF)中,如何利用有限的标记数据和专家查询预算构建成本效益高的代理奖励模型。传统的RLHF方法依赖于离线偏好数据集,而本文提出的方法通过在线设置,使用少量标记种子数据和大量未标记提示,迭代构建新的偏好数据。文章介绍了两种关键创新:在线策略查询以避免种子数据中的分布外和失衡问题,以及主动学习选择最具信息量的数据进行偏好查询。实验结果显示,这种方法能够用最少的专家标记数据训练评估模型,进而有效地标记九倍多的偏好对,用于进一步的RLHF训练。
原理
本文的核心创新在于结合在线策略查询和主动学习策略,以构建成本效益高的代理奖励模型。在线策略查询确保了生成数据与目标模型训练数据的分布一致性,避免了分布外(OOD)问题和数据失衡。主动学习策略则通过选择最具信息量的数据点进行专家查询,从而在有限的预算内最大化学习效果。这两种策略的结合使得即使在极有限的标记数据和查询预算下,也能有效地训练出能够标记大量偏好数据的评估模型。
流程
- 使用预训练模型M0和初始种子数据IFTseed进行SFT(监督微调)以获得M1。
 - 对未标记提示集X中的每个提示x,使用M1生成一组k个响应,形成响应池˜Y1和生成的样本集IFT1。
 - 应用主动查询策略选择IFT1的一个n ≪ N ∗ k预算子集,查询专家(如GPT)以获得基于评估标准模板的评估结果,构建EFT1。
 - 基于预训练模型M0,对EFT1进行SFT以获得弱评估模型Meval 1。
 - 使用Meval 1为未查询的IFT1生成奖励,为每个提示选择最高和最低样本形成DPO对,记为DPO1。
 - 最后,基于M1使用DPO1训练M2。
 
应用
本文提出的方法不仅限于特定的RLHF训练方法,而是可以与其他基于专家查询的策略相结合,进一步降低查询成本。这种方法在需要大量偏好数据但预算有限的环境中具有广泛的应用前景,特别是在大型语言模型的微调和优化过程中。
