RLHF 让大模型学会说多种语言

RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMs

摘要

本文旨在研究如何通过强化学习从人类反馈(RLHF)来优化多语言大型语言模型(LLM),以实现更好的对齐效果。研究发现,增加多语言数据、使用在线优化方法和扩大训练语言数量等因素都可以提高模型的性能。此外,该研究还发现,即使只有英语数据进行偏好优化,也能在其他语言上提升性能,而增加更多语言则可以进一步增强跨语言转移能力。

原理

该研究使用了一种新颖的、可扩展的方法来生成高质量的多语言反馈数据,以平衡数据覆盖范围。具体来说,他们构建了一套通用的多语言指令跟随提示,通过翻译大约 50K 个英语提示,并使用具有不同多语言能力的多个 LLM 生成完成。使用翻译后的完成和与高质量的直接多语言生成进行比较,使得模型能够避免翻译人工制品。

流程

首先,翻译大约 50K 个英语提示到其余 22 种语言。然后,使用多个 LLM 生成每个语言的完成,包括 Cohere 的 Command2 和 Command R+3 模型。对于 Command,生成英语完成并将其翻译成其他语言,而对于 Command R+,则直接在同一种提示下生成完成。最后,对生成的结果进行排名和比较,以获得更好的对齐效果。

应用

该研究成果可应用于多种自然语言处理任务,如文本生成、机器翻译、问答系统等。通过优化多语言 LLM,可以提高这些任务的性能和准确性,为跨语言交流和信息获取提供更好的支持。此外,该研究还可以促进多语言文化的交流和理解,推动人工智能在全球范围内的发展和应用。