“知识蒸馏提示学习:提升零样本泛化的无监督方法”

Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation

摘要

本文提出了一种名为“知识蒸馏提示学习(KDPL)”的新方法,旨在改进视觉-语言模型(VLMs)在零样本泛化中的表现。KDPL通过无监督知识蒸馏技术,从更强大的模型中提取知识,以提高轻量级VLMs在下游任务中的性能,尤其是在数据有限的情况下。该方法不依赖于标注样本,能够无缝集成到现有的提示学习技术中,并在多个标准基准数据集上展示了其有效性,特别是在零样本领域泛化、跨数据集泛化和基础到新颖类别的泛化问题上。此外,KDPL还能在不知道训练类别名称的情况下有效传输知识。

原理

KDPL的核心在于利用知识蒸馏技术,将一个更大、更强大的视觉-语言模型(教师模型)的知识转移到一个小型的学生模型中。具体来说,教师模型在冻结状态下进行零样本分类,生成概率分布,而学生模型则通过学习这些概率分布来调整其提示参数。这种知识蒸馏过程通过最小化教师和学生模型输出概率之间的KL散度来实现,从而使得学生模型能够学习到教师模型的泛化能力,而无需任何标注数据。

流程

KDPL的工作流程包括以下几个步骤:

  1. 使用教师模型进行零样本分类,生成图像和文本特征的概率分布。
  2. 学生模型提取相同的图像和文本特征,并生成自己的概率分布。
  3. 通过计算教师和学生模型概率分布之间的KL散度,定义蒸馏损失。
  4. 使用蒸馏损失来更新学生模型的提示参数,使其更好地泛化到下游任务。 例如,在处理一张图像时,教师模型首先生成该图像的特征表示,并预测其类别概率。学生模型随后尝试模仿这一过程,通过调整其提示参数来接近教师模型的预测结果。

应用

KDPL的应用前景广泛,特别是在需要模型在无监督或极少监督的情况下进行学习和泛化的场景。例如,在医疗图像分析、遥感图像解释、以及任何需要模型在没有大量标注数据的情况下进行有效学习的领域。此外,KDPL的方法可以进一步扩展到其他类型的模型和任务,为未来的研究提供了新的方向。