JSCDS:利用Jensen-Shannon Divergence优化龋齿图像分类的核心数据选择方法

JSCDS: A Core Data Selection Method with Jason-Shannon Divergence for Caries RGB Images-Efficient Learning

摘要

本文介绍了一种名为JSCDS的核心数据选择方法,该方法利用Jensen-Shannon Divergence(JSD)来提高牙科龋齿RGB图像的分类效率。在深度学习模型中,高质量的数据对于提升模型性能至关重要,但同时也需要大量的训练资源。JSCDS通过选择核心数据集,有效消除了低质量和混淆数据,从而在不显著影响模型性能的前提下提高了训练效率。该方法通过计算样本嵌入表示和聚类中心之间的互信息,捕捉高维数据间的非线性依赖关系,显著提升了预测性能和时间效率。实验结果表明,JSCDS在仅使用50%的核心数据时,其性能就超过了使用完整数据集的模型。

原理

JSCDS方法的核心在于利用JSD计算数据样本与聚类中心之间的互信息,以此作为选择核心数据集的依据。首先,通过神经网络的嵌入表示计算每个类别的聚类中心。然后,利用JSD计算每个样本与对应聚类中心之间的互信息,进而计算平均互信息(AvgMI)。AvgMI被用作选择核心数据集的标准,选择那些互信息接近AvgMI的样本作为核心集。这种方法能够有效捕捉高维数据间的非线性依赖关系,从而提升数据选择的准确性和效率。

流程

JSCDS的工作流程主要包括数据表示和数据选择两个阶段。在数据表示阶段,通过神经网络模型提取龋齿图像的嵌入表示,并计算每个类别的聚类中心。在数据选择阶段,利用JSD计算每个样本与聚类中心之间的互信息,并根据AvgMI选择核心数据集。具体来说,首先通过神经网络的嵌入表示计算每个类别的聚类中心,然后计算每个样本与聚类中心之间的互信息,最后选择那些互信息接近AvgMI的样本作为核心集。实验中,JSCDS在MobileNetV2和ResNet18模型上的表现均优于其他数据选择方法。

应用

JSCDS方法在牙科龋齿检测领域具有广泛的应用前景。通过提高数据选择的效率和准确性,JSCDS能够帮助开发更高效、准确的龋齿检测模型,从而在临床实践中提供更好的诊断支持。此外,该方法的原理也可以扩展到其他需要高质量数据集的深度学习应用中,如医学图像分析、自然语言处理等领域。