预训练视觉-语言模型的新范式:弱监督学习的突破
摘要
本文探讨了一种新颖的“预训练标注-弱监督学习”范式,用于预训练视觉-语言模型在图像分类任务中的应用。该方法利用预训练模型作为弱标注器,对未标注样本进行标注,并通过弱监督学习算法进行训练。具体而言,基于CLIP模型,通过多个提示模板对图像样本进行标注,生成多个候选标签,形成噪声部分标签数据集,并设计了一种协同一致性正则化算法来解决这一问题。实验表明,该方法在无需额外标签信息的情况下,性能远超零样本推理,并优于其他弱监督学习和少样本微调方法,同时获得了更小的部署模型。
Read more...








