"CLIP-C:通过语义复合提升视觉-语言对比学习"

Semantic Compositions Enhance Vision-Language Contrastive Learning

摘要

本文探讨了在视觉-语言对比学习领域中,通过引入语义复合示例来改进CLIP类模型的零样本分类和检索能力。受视觉分类中CutMix技术的启发,本文提出了一种新颖的方法,通过合并数据集中两个不同实例的元素来创建语义复合图像-标题对。该方法(称为CLIP-C)通过融合标题并将每个图像的50%进行混合,形成新的复合样本,显著提高了零样本图像分类和跨模态检索的能力,尤其是在预训练数据相对有限的情况下。

原理

CLIP-C的核心在于通过语义复合的方式增强数据效率。该方法通过在预训练过程中引入复合样本,这些样本由两个不同的图像-标题对组合而成,其中一个新的标题是通过连接两个原始标题并使用“and”作为连接词生成的,而新的图像则是通过混合两个图像的中心部分形成的。这种复合过程不仅增加了训练数据的多样性,还通过引入更广泛的语义挑战来驱动学习,从而提高了模型在下游任务中的表现。

流程

在每个训练步骤中,CLIP-C从数据集中随机抽取两个图像-标题对,然后根据预定义的概率决定是否将它们组合成一个新的复合样本。这个过程涉及将两个标题连接起来,并将两个图像的中心部分进行混合。生成的复合样本随后用于计算InfoNCE损失,这是一种对比损失,用于优化模型以更好地对齐图像和文本的嵌入。通过这种方式,模型在训练过程中接触到更多样化的图像和标题组合,从而提高了其在零样本分类和跨模态检索任务中的性能。

应用

CLIP-C的应用前景广泛,特别是在那些难以获取大量图像-文本数据集的领域,如医学图像和卫星图像分析。由于该方法能够在预训练数据有限的情况下显著提升模型性能,因此它为那些数据稀缺的应用场景提供了一种有效的解决方案。此外,CLIP-C的简单性和高效性使其易于集成到现有的视觉-语言预训练流程中,有望推动相关技术在更多领域的应用。