"Pseudo-RIS: 革新引用图像分割的伪监督生成技术"

Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation

摘要

本文提出了一种名为Pseudo-RIS的新框架,用于自动生成高质量的分割掩码及其对应的引用表达,作为引用图像分割(RIS)的伪监督。这些伪监督允许训练任何监督的RIS方法,而无需人工标注的成本。通过整合现有的分割和图像字幕基础模型,利用其广泛的泛化能力,Pseudo-RIS能够生成具有高度区分性的引用表达,从而在RIS基准数据集上显著超越弱监督和零样本SoTA方法,甚至在未见领域中超越完全监督方法。此外,将该方法与人工标注结合,进一步凸显了其在半监督学习应用中的潜力。

原理

Pseudo-RIS的核心在于生成具有高度区分性的伪监督,通过两个主要策略实现:1) “区分性字幕采样”,一种新的字幕模型解码方法,生成多个聚焦于目标的详细词汇的表达候选;2) “基于区分性的文本过滤”,进一步验证候选表达并过滤掉区分性低的表达。这两个策略确保生成的文本监督能够区分目标与其他对象,适合作为RIS的标注。此外,该方法通过集成具有强大泛化能力的基础模型,使得生成的伪监督适用于RIS的开放世界特性。

流程

Pseudo-RIS的工作流程包括三个主要步骤:1) 精确掩码提取,使用如SAM这样的分割基础模型提取高质量的实例级分割掩码;2) 区分性字幕候选生成,利用图像-文本基础模型如CoCa生成多个区分性字幕候选;3) 基于区分性的文本过滤,使用基于CLIP分数的区分性度量进一步评估生成的字幕,并过滤掉模糊和不精确的字幕。例如,对于一个目标掩码,生成如“一只棕色长尾巴的牛”这样的区分性字幕,而不仅仅是“一只牛”。

应用

Pseudo-RIS的应用前景广泛,特别是在需要大量标注数据但成本高昂的RIS领域。该方法不仅提高了分割的准确性,还通过减少对人工标注的依赖,降低了成本。此外,Pseudo-RIS在处理未见领域和开放世界挑战方面显示出强大的能力,使其在未来的图像分割技术中具有重要的应用价值。