CALICO:革新医学影像分析的自信主动学习框架

CALICO: Confident Active Learning with Integrated Calibration

摘要

本文介绍了一种名为CALICO(Confident Active Learning with Integrated Calibration)的主动学习框架,旨在解决深度学习在安全关键应用(如医学影像)中由于模型复杂性增加而导致的标签数据需求激增问题。CALICO通过集成校准的自信度输出,在训练过程中自我校准样本选择,从而提高模型性能并减少标签成本。该方法结合了分类器和能量基模型的联合训练,无需额外的标签数据集即可实现自信度校准,实验结果显示其在分类性能和自信度校准方面均优于传统的softmax分类器。

原理

CALICO的核心在于其联合训练机制,结合了神经网络分类器和能量基模型(EBM)。在这种框架下,模型不仅能估计输入数据的分布,还能同时估计类别概率,从而在校准自信度输出时更为精确。具体来说,EBM通过直接建模负对数概率(即能量函数)来估计数据分布,而分类器则通过softmax函数计算类别后验概率。这种联合训练方式使得模型在处理模糊数据点(如决策边界附近的数据)时,能够自然地降低后验概率,实现自信度的自我校准。

流程

CALICO的工作流程包括初始化模型、迭代训练、样本选择、标签获取和模型更新等步骤。具体来说,模型首先在有限的标签数据集上进行初始训练,然后使用最小自信度策略从无标签数据池中选择最具信息价值的样本进行专家标注。这些新标注的样本随后被加入到标签数据集中,模型再次进行训练,此过程反复进行直至达到预定的性能目标或无标签数据池耗尽。整个过程中,CALICO利用EBM和分类器的联合训练来校准自信度输出,确保在选择样本时做出更可靠的决策。

应用

CALICO在医学影像等需要高度精确和可靠性的领域具有广泛的应用前景。由于其能够在有限的标签数据下实现高效的模型训练和自信度校准,CALICO特别适合于那些标签获取成本高昂或专家资源稀缺的应用场景。此外,该方法的自我校准特性也使其在处理类别不平衡数据集时表现出色,进一步扩展了其在实际应用中的适用性。