ProgressGym:引领AI与千年道德进步的对齐之旅

ProgressGym: Alignment with a Millennium of Moral Progress

摘要

本文介绍了一种名为“ProgressGym”的实验框架,旨在解决前沿人工智能系统(包括大型语言模型LLMs)在影响人类用户认知学时可能强化社会现有价值观,从而导致错误道德信念的锁定和广泛问题的道德实践持续存在的问题。论文提出了“进步对齐”作为技术解决方案,通过学习人类道德进步的机制,解决现有对齐方法对当代道德盲点的敏感性。ProgressGym框架利用9个世纪的历史文本和18个历史LLMs,将现实世界的进步对齐挑战编码为具体基准,并引入了三个核心挑战:跟踪进化价值观(PG-Follow)、预见性预测道德进步(PG-Predict)和调节人与AI价值变化的反馈回路(PG-Coevolve)。论文还介绍了终身和外推算法作为进步对齐的基线方法,并构建了一个开放的排行榜,邀请社区贡献新的算法和挑战。

原理

ProgressGym框架的核心在于通过历史数据学习人类道德进步的机制,并将其应用于现实世界的道德决策中。该框架通过以下几个关键步骤实现其功能:

  1. 数据收集与模型训练:利用从1221年到2022年的历史文本数据(38GB)和18个历史LLMs(每个世纪有7B和80B参数的模型),构建一个能够反映人类价值随时间演变的模型。
  2. 挑战定义:将进步对齐问题转化为具体可操作的机器学习基准,如PG-Follow、PG-Predict和PG-Coevolve,每个挑战都有明确的任务目标和评估标准。
  3. 算法开发:提出了终身和外推对齐算法作为基线方法,这些算法能够在历史数据的基础上学习和预测未来的价值变化,并据此调整AI系统的行为。
  4. 开放平台:通过开源ProgressGym框架和实时排行榜,鼓励机器学习社区参与挑战的定义和算法的开发,以推动进步对齐研究的发展。

流程

  1. 数据准备:收集和清洗跨越9个世纪的历史文本数据,并训练相应的历史LLMs。
  2. 挑战实施:根据定义的挑战(PG-Follow、PG-Predict、PG-Coevolve),设计具体的评估流程和标准。
  3. 算法应用:将终身和外推对齐算法应用于每个挑战,通过与历史LLMs的交互,学习并预测价值变化。
  4. 结果评估:使用预定义的评估标准(如价值嵌入的余弦相似度)来评估算法的表现,并在排行榜上公布结果。
  5. 社区参与:通过开放的GitHub仓库和排行榜,邀请社区成员贡献新的挑战和算法,共同推动进步对齐技术的发展。

应用

ProgressGym框架的应用前景广泛,主要体现在以下几个方面:

  1. 道德AI系统开发:帮助开发能够在道德和价值观念上与人类进步保持一致的AI系统。
  2. 政策制定与伦理审查:为政策制定者和伦理审查机构提供工具,以评估和指导AI系统的发展方向。
  3. 社会科学研究:作为研究人类价值观念随时间演变的工具,对社会科学研究具有重要价值。
  4. 教育与培训:在AI伦理和道德决策培训中,提供实际案例和模拟环境,增强学习者的实践能力。