FLAMe:引领大型语言模型自动评估的新纪元

Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

摘要

本文介绍了一种名为FLAMe的新型基础自动评估模型,旨在解决大型语言模型(LLMs)输出评估的高成本问题。FLAMe模型通过训练于100多个质量评估任务和超过500万个人类判断的数据集上,显著提高了对未见任务的泛化能力,并在多个评估基准上超越了如GPT-4和Claude-3等专有数据训练的模型。此外,FLAMe模型还能作为进一步下游微调的强大起点,特别是在奖励模型评估方面表现出色,且通过一种新颖的尾部补丁微调策略,实现了计算效率的显著提升。总体而言,FLAMe模型在8个自动评估基准中表现优异,覆盖53个质量评估任务,显示出其在自动评估领域的广泛应用前景。

原理

FLAMe模型的核心在于其大规模多任务指令调优方法。该模型通过监督多任务微调在一个包含102个标准化人类评估任务的混合数据集上进行训练,这些任务被转换为统一的文本到文本格式,并配备了手工制作的任务定义和评估指令。这种训练方式使得FLAMe能够学习到人类判断的稳健模式,从而在面对新任务时能够进行有效的泛化。FLAMe模型的先进性体现在其能够处理多种类型的质量评估任务,包括分类、开放式评估、点对点和成对评估,以及能够识别和响应各种任务的特定需求。

流程

FLAMe的工作流程始于数据收集和标准化阶段,通过精心策划和标准化来自先前研究的人类评估数据,构建了一个包含102个不同类型任务的数据集。随后,所有任务被转换为统一的文本到文本格式,并定义了详细的任务定义和评估指令。模型训练阶段,FLAMe通过监督多任务微调在数据集上进行训练,学习如何根据提供的上下文和预期的人类评估来评估文本。在推理阶段,FLAMe模型能够根据任务定义和评估指令,对新输入的文本进行评估。

应用

FLAMe模型的应用前景广泛,特别是在需要对大型语言模型输出进行自动评估的场景中。它可以用于机器翻译质量评估、AI助手指令遵循评估、代码生成质量评估等多个领域。此外,FLAMe模型还能作为进一步研究和开发的基础,例如通过微调优化特定应用领域的性能,或者作为构建更复杂评估系统的组件。随着AI技术的不断进步,FLAMe模型有望在提高评估效率和准确性方面发挥关键作用。