提升弱监督语义分割精度:ORANDNet集成方法的突破与应用前景

Precision matters: Precision-aware ensemble for weakly supervised semantic segmentation

摘要

本文由Junsung Park和Hyunjung Shim共同撰写,聚焦于弱监督语义分割(WSSS)领域,该领域通过使用图像级标签等弱监督信息来训练分割模型,以降低全监督语义分割的高标注成本。尽管近期WSSS方法取得了显著成就,但作者发现仅提高伪掩码的平均交并比(mIoU)并不总能保证最终模型的高性能。为此,文章提出了ORANDNet,一种针对WSSS的先进集成方法,通过结合来自两个不同分类器的类激活图(CAMs)来提升伪掩码(PMs)的精度,并采用课程学习策略进一步减少PMs中的小噪声。实验结果表明,ORANDNet不仅显著提升了分割性能,还展示了其作为WSSS模型最终附加模块的潜力。

原理

ORANDNet的核心创新在于其集成策略,通过将两个不同模型的CAMs进行概率性的OR和AND操作,以提高伪掩码的精度和减少噪声。具体来说,ORANDNet首先对来自ResNet-50和ViT的CAMs执行像素级的OR操作,然后通过一个全卷积网络(FCN)预测出AND CAM,这一过程有效地将密集且覆盖广泛的激活图精炼为一致的区域,同时保持足够的召回率。此外,ORANDNet还采用了尺度调度策略,在训练早期通过逐步缩小图像-伪掩码对来减少小噪声的影响,从而进一步提高伪掩码的精度。

流程

ORANDNet的工作流程分为两个阶段:第一阶段,利用图像级标签训练两个不同的分类器(如ResNet-50和ViT),并生成各自的CAMs;第二阶段,将这两个CAMs输入到ORANDNet中,通过OR和AND操作生成高精度的伪掩码,并使用这些伪掩码训练语义分割网络。在测试阶段,ORANDNet使用OR CAM作为输入,通过IRN处理预测结果以获得最终的伪掩码。此外,尺度调度策略在第二阶段中被应用,通过在不同训练周期逐步缩小图像-伪掩码对来减少噪声。

应用

ORANDNet作为一种针对WSSS的集成方法,不仅在现有的WSSS模型中显示出显著的性能提升,而且具有广泛的适用性,可以作为未来WSSS研究的附加模块。随着WSSS技术的进一步发展,ORANDNet有望在自动驾驶、医学图像分析、遥感图像处理等多个领域发挥重要作用,特别是在需要高精度分割但标注成本高昂的应用场景中。