课程学习与质量驱动数据选择:提升多模态大型语言模型性能的新方法

Curriculum Learning with Quality-Driven Data Selection

摘要

本文介绍了一种新颖的数据选择方法,该方法通过利用图像-文本相关性和模型困惑度来评估和选择不同质量的数据,从而在多模态大型语言模型(MLLMs)的视觉指令调优中提高零样本能力。该方法通过将数据质量映射到一个二维空间中,允许基于数据在该分布中的位置进行选择,并构建多阶段不同质量的子集以促进课程学习。通过在多个数据集上的综合实验,结果显示在五个常用评估能力上相比使用完整数据集有显著提升。此外,本文还提出了一个课程学习策略,通过多阶段训练使用不同质量的数据,显著提高了模型的微调性能。代码、数据和模型已在https://anonymous.4open.science/r/EHIT-31B4公开发布。

原理

本文提出的数据选择方法通过计算每个样本的剪辑得分(clip score)和模型损失(model loss),将它们作为二维坐标来构建一个表示空间。通过划分关键区域,可以获得不同质量的数据子集。剪辑得分反映了图像特征与文本特征的对应程度,而模型损失则是模型困惑度的度量,反映了目标文本与模型内部偏好之间的差异。通过这种方式,数据可以根据其在二维空间中的位置被分类和选择,从而实现对数据质量的控制。

流程

数据选择的工作流程包括以下步骤:

  1. 计算每个样本的剪辑得分和模型损失。
  2. 将这些得分和损失映射到一个二维表示空间中。
  3. 根据得分和损失的上限和下限,选择数据子集。
  4. 使用这些子集进行多阶段的课程学习,从低质量数据逐步过渡到高质量数据。

例如,在初始阶段(k=0),模型使用从高质量数据分布中随机采样的数据进行训练,随后在中间阶段(k=1)和高级阶段(k=2)逐步提高数据质量阈值,从而使模型能够逐步适应更复杂和一致性较低的关系。

应用

本文提出的数据选择和课程学习方法不仅适用于多模态大型语言模型的视觉指令调优,还可以推广到其他需要高质量数据集的机器学习任务中。通过有效控制数据质量和多样性,这些方法有望在图像识别、自然语言处理和跨模态学习等领域中提升模型的性能和泛化能力。