革新图像分割:基于情境学习的视觉提示选择新策略
摘要
本文探讨了在计算机视觉中,基于情境学习(In-Context Learning, ICL)的图像分割任务中,如何改进视觉提示的选择策略。传统的图像分割模型通常依赖于密集的标注数据和简单的相似度排序来选择上下文示例,这种方法忽略了视觉提示的多样性和其在引导分割中的重要作用。本文提出了一种新的逐步上下文搜索方法(SCS),通过构建一个小而丰富的候选池和自适应搜索模块,有效地减少了标注成本并提高了分割性能。实验证明,该方法在多个数据集上达到了最先进的性能。
原理
本文提出的逐步上下文搜索方法(SCS)主要通过以下几个步骤实现其先进性:
- 构建候选池:利用无标签数据集,通过k-means聚类算法构建一个包含多样性示例的小型候选池。每个聚类中选择最接近和最远离中心点的示例,以确保候选池的多样性。
 - 自适应搜索模块:设计了一个基于强化学习的自适应搜索模块,该模块利用分割分数作为奖励,动态地从候选池中选择最匹配的上下文示例。
 - 减少标注成本:通过在无标签数据上进行聚类和选择,显著减少了所需的标注数据量,同时保持了分割性能。
 
流程
- 数据预处理:使用CLIP模型提取图像特征,并对这些特征进行k-means聚类。
 - 候选池构建:从每个聚类中选择最接近和最远离中心点的示例,构建一个多样性的候选池。
 - 自适应搜索:对于每个测试实例,使用自适应搜索模块从候选池中选择最匹配的上下文示例。
 - 分割执行:将测试实例和选定的上下文示例输入到基于ICL的分割模型中,执行分割任务。
 
应用
本文提出的方法不仅在图像分割任务中显示出显著的性能提升,而且由于其减少了标注成本,特别适用于需要大量数据标注的场景,如自动驾驶、视频监控和复杂推理等领域的图像分割任务。此外,该方法的通用性和高效性使其可以广泛应用于其他需要上下文示例选择的计算机视觉任务中。
