预训练视觉-语言模型的新范式:弱监督学习的突破

Pre-Trained Vision-Language Models as Partial Annotators

摘要

本文探讨了一种新颖的“预训练标注-弱监督学习”范式,用于预训练视觉-语言模型在图像分类任务中的应用。该方法利用预训练模型作为弱标注器,对未标注样本进行标注,并通过弱监督学习算法进行训练。具体而言,基于CLIP模型,通过多个提示模板对图像样本进行标注,生成多个候选标签,形成噪声部分标签数据集,并设计了一种协同一致性正则化算法来解决这一问题。实验表明,该方法在无需额外标签信息的情况下,性能远超零样本推理,并优于其他弱监督学习和少样本微调方法,同时获得了更小的部署模型。

原理

本文提出的方法基于CLIP模型,通过一系列提示模板生成图像样本的多个候选标签。这些候选标签形成了一个噪声部分标签数据集,然后通过协同一致性正则化(Co-Reg)方法进行处理。Co-Reg方法同时训练两个神经网络,这两个网络相互协作,净化训练标签并生成伪标签进行自训练。此外,该方法还采用了原型相似性对齐和噪声监督对比学习来优化模型表示。这种协同净化和自训练机制使得模型能够在无需人工标注的情况下,有效地学习和适应下游任务。

流程

  1. 使用多个提示模板对图像样本进行标注,生成多个候选标签。
  2. 将所有候选标签组合成一个集合,形成噪声部分标签数据集。
  3. 设计协同一致性正则化(Co-Reg)方法,同时训练两个神经网络。
  4. 这两个网络相互协作,净化训练标签并生成伪标签进行自训练。
  5. 采用原型相似性对齐和噪声监督对比学习优化模型表示。
  6. 通过实验验证方法的有效性,并与其他方法进行性能比较。

应用

该方法不仅适用于视觉-语言模型,还可扩展到其他类型的预训练模型,如大型语言模型。其应用范围广泛,包括但不限于图像分类、目标检测和语义分割等领域。随着预训练模型在各个领域的广泛应用,该方法有望进一步推动弱监督学习的发展,特别是在数据标注成本高昂的场景中,具有重要的实际应用价值。