"利用提示对齐优化视觉-语言模型在候选标签下的微调"

Tuning Vision-Language Models with Candidate Labels by Prompt Alignment

摘要

本文探讨了在实际应用中,由于数据隐私或敏感性问题,可能只能获取包含真实标签的候选标签集合而非确切标签的情况下,如何通过提示学习(Prompt Learning)对视觉-语言模型(Vision-Language Models, VLMs)进行微调。文章首次研究了在仅能获取候选标签的情况下,提示学习相较于其他微调方法的优势,并提出了一种新的框架,通过动态混合由手工提示和可学习提示共同预测的类别后验概率,并将其与模型输出对齐,以提高模型在处理候选标签时的鲁棒性。实验结果表明,该框架在多个基准数据集上显著提升了性能。

原理

本文提出的框架通过以下方式增强提示学习在处理候选标签时的性能:首先,使用手工提示和可学习提示分别预测类别后验概率;然后,通过动态混合策略将这两种提示的预测结果进行混合;最后,通过重新加权的交叉熵损失将混合后的类别后验概率与模型输出对齐。这种对齐过程有助于模型更好地利用预训练VLMs的先验知识,从而在候选标签的模糊性增加时仍能保持较好的性能。

流程

框架的工作流程如下:输入图像通过图像编码器生成视觉嵌入,同时手工提示和可学习提示分别通过文本编码器生成文本嵌入。这些嵌入随后用于预测类别后验概率。通过动态混合策略,结合手工提示和可学习提示的预测结果,生成混合的类别后验概率。最后,通过重新加权的交叉熵损失,将混合的类别后验概率与模型输出对齐,以优化模型参数。整个过程中,除了可学习提示外,框架的其他参数保持冻结状态。

应用

该框架适用于需要在数据隐私或敏感性问题下进行模型微调的场景,如图像分类、细粒度分类等。由于其能够有效处理候选标签的不确定性,该框架在实际应用中具有广泛的应用前景,尤其是在需要从大量噪声数据中学习的情况下。