Arena Learning:通过模拟聊天机器人竞技场构建LLMs后训练数据飞轮
摘要
本文介绍了一种名为Arena Learning的创新方法,旨在通过模拟聊天机器人竞技场(Chatbot Arena)来评估大型语言模型(LLMs)的有效性。传统的在线Chatbot Arena评估方法受限于人工标注的成本和时间。Arena Learning采用AI驱动的标注方式,通过模拟竞技场战斗来评估战斗结果,从而实现目标模型的持续改进。该方法包括两个关键元素:一是通过WizardArena管道确保离线模拟与在线竞赛之间的一致性;二是基于战斗结果不断改进训练数据。实验结果表明,Arena Learning能够显著提升目标模型WizardLM-β的性能,为LLMs的后训练提供了一个高效、自动化的训练和评估管道。
Read more...








