探索实例依赖噪声下的高效学习:锚点幻觉与硬样本标签校正
摘要
本文针对实际应用中存在实例依赖噪声(Instance-Dependent Noise, IDN)的噪声标签学习(Noisy-Label Learning, NLL)问题,提出了一种新颖的方法,通过锚点幻觉(anchor hallucination)和硬样本标签校正来区分和处理简单与复杂样本。该方法不仅区分干净与噪声样本,还特别关注了那些因视觉模式复杂而难以分类的硬样本。通过实验证明,该方法在合成和真实世界的IDN数据集上均优于现有的NLL方法。
原理
本文提出的方法通过以下步骤实现其先进性:首先,利用小损失准则选择具有简单视觉模式和正确标签的简单样本。然后,通过从这些简单样本中合成特征向量来幻觉生成多个锚点,这些锚点模拟了具有复杂视觉组合的硬样本。接着,使用这些幻觉锚点来选择原始训练集中的硬样本,并通过多数投票机制校正这些硬样本的标签。最后,校正后的硬样本与初始的简单样本一起作为标记数据,用于后续的半监督训练。这种方法有效地提高了数据和标签的利用率,特别是在处理那些因视觉复杂性而难以分类的样本时表现出色。
流程
本文的方法包括两个主要训练阶段:分类阶段和幻觉器训练阶段。在分类阶段,首先选择简单样本,然后进行硬锚点幻觉,接着选择硬样本并进行标签校正,最后进行半监督学习。在幻觉器训练阶段,更新幻觉器模型。整个流程通过迭代进行,确保模型在处理复杂样本时能够不断优化。
应用
该方法在图像分类、半监督学习等多个领域具有广泛的应用前景。特别是在数据标注成本高且不可避免地存在标签噪声的实际场景中,该方法能够有效提高模型的鲁棒性和准确性。此外,该方法的思路和策略也可能对其他需要有效利用数据信息的领域,如主动学习等,提供新的研究方向和启示。
