探索INPO:通过无悔学习优化LLM与人类偏好的对齐

Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

摘要

本文探讨了在强化学习与人类反馈(RLHF)框架下,如何通过迭代纳什策略优化(INPO)算法,使大型语言模型(LLM)与人类普遍偏好对齐。传统的RLHF方法基于Bradley-Terry(BT)模型假设,可能无法完全捕捉人类偏好的复杂性。INPO算法通过无悔学习,让策略自我对抗,从而逼近纳什策略,避免了估计单个响应预期胜率的高计算或标注成本。实验结果显示,INPO在多个基准测试中显著优于现有迭代算法,特别是在AlpacaEval 2.0和Arena-Hard v0.1上取得了显著的改进。此外,消融研究表明,结合KL正则化有助于控制响应长度。

原理

INPO算法的核心在于将LLM对齐问题建模为一个双玩家游戏,并通过无悔学习策略来学习纳什均衡策略。算法不直接计算每个响应的预期胜率,而是引入一个新的损失目标,该目标直接在偏好数据集上最小化。这种设计避免了传统方法中对奖励模型的依赖,减少了计算和标注成本。通过在线镜像下降(OMD)算法,INPO在每一步迭代中更新策略,确保策略不仅在性能上有所提升,而且保持与参考策略的接近度,从而有效避免了奖励操纵问题。

流程

INPO的工作流程包括初始化策略为参考策略,然后在每个迭代步骤中,使用当前策略生成响应对,并通过偏好预言机获取偏好数据集。接着,计算并更新策略,使其最小化定义的损失函数。具体步骤如下:

  1. 初始化策略π1为参考策略πref。
  2. 对于每个迭代t,使用当前策略πt生成响应对{y(i)1, y(i)2}。
  3. 查询偏好预言机P以获取偏好数据集Dt。
  4. 计算πt+1,使其最小化偏好数据集Dt上的损失函数。
  5. 重复步骤2-4,直到达到预设的迭代次数T。
  6. 输出最终策略πT+1。

应用

INPO算法不仅在现有的LLM对齐任务中显示出优越性能,而且其基于普遍偏好的框架和无悔学习策略的设计,为未来在更复杂和多样化的应用场景中对齐LLM提供了新的可能性。例如,在需要高度个性化或动态变化的偏好环境中,INPO能够更灵活地适应和优化。此外,该算法的高效性和稳定性也使其成为在线学习和持续学习场景中的理想选择。