"创新在线学习策略:构建成本效益高的代理奖励模型以优化大型语言模型"
摘要
本文探讨了在大型语言模型(LLM)中使用人类反馈的强化学习(RLHF)时,如何通过构建成本效益高的代理奖励模型来有效利用有限的标注数据和专家查询预算。传统的RLHF方法依赖于离线偏好数据集,而本文提出的方法转向在线设置,利用少量标注种子数据和大量未标注提示,通过模型生成的响应和高质量的奖励/偏好反馈迭代构建新的偏好数据。文章提出了两种关键创新:(1)在策略查询以避免种子数据中的分布外(OOD)和不平衡问题;(2)主动学习选择最具有信息量的数据进行偏好查询。这些方法使得在仅使用极少量的专家标注数据的情况下,能够有效地标注出九倍多的偏好对,用于进一步的RLHF训练。例如,使用直接偏好优化(DPO)方法,模型在AlpacaEval2、MMLU5shot和MMLU-0shot指标上平均提升了超过1%,而查询成本仅为1.7K。
原理
本文的核心创新在于通过在策略查询和主动学习策略来构建成本效益高的代理奖励模型。在策略查询确保了从正在训练的目标模型中采样数据,从而避免了分布外问题和数据不平衡问题。主动学习策略则通过选择最具信息量的数据点进行查询,进一步提高了数据标注的效率。这两种策略的结合使得模型能够在有限的资源下,更有效地利用专家的反馈,从而提升模型的性能。
流程
文章详细描述了其提出的在策略+主动学习(On-policy+AL)管道的具体步骤:
- 使用预训练模型M0和初始种子数据IFTseed进行SFT(监督微调)以获得M1。
 - 对于一组N个未标注提示X,使用M1生成一组k个响应,形成整个响应池˜Y1和整个N * k大小的生成样本IFT1。
 - 使用主动查询策略选择一个n ≪ N * k预算的IFT1子集,查询专家(如GPT)以根据评估标准模板构建EFT1。
 - 基于预训练模型M0,在EFT1上进行SFT以获得弱评估模型Meval 1。
 - 使用Meval 1为剩余的未查询IFT1生成奖励,为每个提示选择最高和最低样本形成DPO对,表示为DPO1。
 - 最后,基于M1使用DPO1训练M2。
 
关键步骤在于第三步,通过在策略EFT查询和主动学习策略选择更具有信息量的子集进行查询,从而有效地构建代理奖励模型。
应用
本文提出的方法不仅限于特定的LLM或数据集,而是提供了一种通用的方法论,可以在不同的模型和数据集上进行应用。这种方法的灵活性和成本效益使其在资源有限的环境中尤为有用,特别是在需要大量人类反馈来微调模型的场景中。未来,这种方法可以与其他优化策略结合,进一步降低查询成本,提升模型的性能和适应性。
