负原型引导的对比学习:弱监督目标检测的新前沿

Negative Prototypes Guided Contrastive Learning for WSOD

摘要

本文由北京邮电大学人工智能学院的张宇、朱创、杨国青和陈思琪共同撰写,针对弱监督目标检测(WSOD)领域,提出了一种基于负原型引导的对比学习框架(NPGC)。WSOD主要利用图像级别的标注进行训练,但现有的方法往往忽视了实例间的图像间关系,尤其是那些具有相似特征但不属于同一类别的实例。NPGC框架通过定义负原型(即被错误分类为某一类别的高置信度提案),并构建一个在线更新的全局特征库来存储正原型和负原型,从而充分利用弱标签信息。此外,论文还提出了一种伪标签采样模块,用于挖掘可靠实例并排除易被错误分类的实例。通过对比学习范式,该方法在嵌入空间中优化提案的特征表示,实验结果表明,NPGC在VOC07和VOC12数据集上达到了最先进的性能。

原理

NPGC框架的核心创新在于引入负原型的概念,并通过对比学习优化提案的特征表示。负原型是指那些被错误分类为某一类别的高置信度提案,这些提案虽然不属于当前图像的标注类别,但包含了该类别的特定判别特征。通过构建一个全局特征库,NPGC不仅存储了正原型(即正确分类的提案),还存储了负原型。这种设计使得模型能够更好地理解类别间的细微差别,并通过对比学习损失函数,使得同一类别的样本在嵌入空间中更接近,不同类别的样本更远离。此外,伪标签采样模块根据特征相似度选择可靠的提案,进一步提高了检测的准确性。

流程

NPGC的工作流程包括四个主要组件:特征提取器、MIL分支、对比分支和在线实例细化分支。首先,特征提取器从输入图像中提取特征,MIL分支根据这些特征生成提案的分类和检测得分。对比分支利用全局特征库中的正原型和负原型,通过对比学习优化提案的特征表示。在线实例细化分支则进一步细化提案的边界框。具体来说,对比分支通过计算提案与正原型和负原型的相似度,选择可靠的提案并排除易被错误分类的提案。通过这一流程,NPGC能够在弱监督环境下实现高效的目标检测。

应用

NPGC框架在弱监督目标检测领域具有广泛的应用前景。由于其能够有效利用图像级别的标注信息,NPGC特别适用于那些标注资源有限或难以获取详细标注的场景。此外,NPGC的对比学习机制和伪标签采样模块也为其他弱监督学习任务提供了新的研究思路。随着技术的进一步发展和优化,NPGC有望在自动驾驶、智能监控、医学图像分析等多个领域发挥重要作用。