SafaRi:引领弱监督指代表达分割的新纪元
摘要
本文介绍了一种名为SafaRi的自适应序列转换器,用于弱监督的指代表达分割(Referring Expression Segmentation, RES)任务。该方法通过引入新的算法创新,解决了现有方法需要大规模掩码标注且在未见/零样本场景中泛化能力差的问题。SafaRi是首个仅使用部分掩码和边界框标注进行训练的方法,通过跨模态融合与注意力一致性模块(X-FACt)和伪标签有效性过滤程序(MVF),显著提高了图像与文本区域级对齐和目标对象的空间定位能力。实验表明,仅使用30%的标注数据,SafaRi在RefCOCO+@testA和RefCOCO+testB数据集上的表现优于完全监督的SOTA方法SeqTR,并展示了在未见/零样本任务中的强大泛化能力。
原理
SafaRi的核心创新在于其跨模态融合与注意力一致性模块(X-FACt)和伪标签有效性过滤程序(MVF)。X-FACt模块通过融合特征提取器(使用Swin transformer和RoBERTa)和注意力掩码一致性正则化(AMCR),增强了跨模态对齐质量,特别是在缺乏大量标注数据的情况下。AMCR通过正则化技术确保注意力热图与图像中的目标对象一致,从而提高预测掩码的准确性。MVF程序则通过空间感知零样本提案评分方法,自动筛选出有效的伪标签,进一步提升了模型的自标注能力。
流程
SafaRi的工作流程包括初始训练阶段、伪标签生成和模型重训练三个步骤。在初始训练阶段,模型使用部分标注的掩码数据进行训练。接着,在伪标签生成阶段,模型对未标注数据进行推理,生成掩码,并通过MVF程序筛选出有效掩码作为伪标签。最后,在模型重训练阶段,使用包含伪标签的更新数据集重新训练模型,通过γ调度策略动态调整伪标签损失权重,以提高模型的性能。
应用
SafaRi在弱监督指代表达分割任务中表现出色,其应用前景广泛,包括但不限于图像分割、视频对象分割以及零样本学习等领域。由于其能够在有限标注数据下实现高效学习,SafaRi有望在实际应用中降低数据标注成本,加速模型部署,特别是在需要处理大量视觉数据的场景中。
