PDiscoFormer:利用视觉变换器实现无监督部分发现的革命性进展
摘要
本文介绍了一种名为PDiscoFormer的新型人工智能模型,该模型利用视觉变换器(ViT)来放松传统计算机视觉方法中对物体部分检测的严格几何约束。传统的部分发现方法通常假设发现的部分应该是小而紧凑的,这在某些情况下是有用的,但在处理具有复杂形状或多个实例的对象时可能不适用。PDiscoFormer通过使用自监督的DINOv2 ViT模型,引入了一种总变差(TV)先验,允许部分具有多个连接组件的任意大小,从而在三个细粒度分类基准(CUB、PartImageNet和Oxford Flowers)上显著优于先前的方法。该模型不仅在部分发现指标上取得了显著改进,而且在下游分类任务上也表现出色,显示出自监督ViT模型中强大的归纳偏差需要重新考虑用于无监督部分发现的形状先验。
Read more...








