PDiscoFormer:利用视觉变换器实现无监督部分发现的革命性进展
摘要
本文介绍了一种名为PDiscoFormer的新型人工智能模型,该模型利用视觉变换器(ViT)来放松传统计算机视觉方法中对物体部分检测的严格几何约束。传统的部分发现方法通常假设发现的部分应该是小而紧凑的,这在某些情况下是有用的,但在处理具有复杂形状或多个实例的对象时可能不适用。PDiscoFormer通过使用自监督的DINOv2 ViT模型,引入了一种总变差(TV)先验,允许部分具有多个连接组件的任意大小,从而在三个细粒度分类基准(CUB、PartImageNet和Oxford Flowers)上显著优于先前的方法。该模型不仅在部分发现指标上取得了显著改进,而且在下游分类任务上也表现出色,显示出自监督ViT模型中强大的归纳偏差需要重新考虑用于无监督部分发现的形状先验。
原理
PDiscoFormer的核心在于其能够利用自监督预训练的ViT模型来放松对物体部分形状的严格先验假设。传统的部分发现方法通常依赖于紧凑性先验,即假设物体部分应该是小而紧凑的。然而,PDiscoFormer通过引入总变差(TV)先验,允许部分具有多个连接组件的任意大小,从而更灵活地适应不同形状和大小的物体部分。此外,PDiscoFormer结合了熵损失和Gumbel-Softmax在部分映射上的应用,以确保部分映射的一致性和高质量。这种组合使得模型能够更好地利用自监督预训练ViT模型的表示能力,并适用于具有多样类型部分的任务。
流程
PDiscoFormer的工作流程包括以下几个关键步骤:
- 特征提取:使用预训练的ViT模型从输入图像中提取特征张量。
 - 注意力映射计算:通过计算补丁令牌特征与可学习原型之间的负平方欧氏距离,生成注意力映射。
 - 部分嵌入向量计算:利用注意力值计算特征张量的加权平均,得到部分嵌入向量。
 - 部分嵌入向量调制:通过层归一化操作,使每个嵌入向量对分类器具有区分性。
 - 分类得分计算:将调制后的嵌入向量线性投影,得到基于部分嵌入的分类得分。
 - 分类概率计算:通过softmax函数得到最终的分类概率。
 
例如,在CUB数据集上,PDiscoFormer能够准确地发现鸟类的不同部分,如翅膀和腿部,而不会受到传统紧凑性先验的限制。
应用
PDiscoFormer的应用前景广泛,特别是在需要细粒度图像分类的领域,如生物学、植物学和动物学研究。由于其能够发现并识别复杂形状和多实例的物体部分,该模型在自动化图像分析和识别任务中具有巨大的潜力。此外,PDiscoFormer的灵活性使其能够适应各种不同的数据集和应用场景,为未来的研究和实际应用提供了强大的工具。
