A3S:一种通过成对约束实现自适应主动聚类的新框架
摘要
本文介绍了一种名为A3S(Adaptive Active Aggregation and Splitting)的新型主动聚类框架,该框架通过集成人工标注的成对约束来提升聚类性能。传统的半监督聚类方法在处理具有大量类别的大型数据集时,查询成本较高。A3S通过在初始聚类结果上进行策略性的主动聚类调整,显著提高了聚类的性能和可扩展性。该框架在多个真实世界数据集上的广泛实验表明,A3S能够在显著减少人工查询的情况下实现预期的聚类效果。
原理
A3S框架的核心在于其自适应的初始化和主动的聚类调整阶段。在初始化阶段,A3S使用指定的聚类算法(如K-means或层次聚类)自主确定适当的聚类数量并生成初始聚类结果。在主动聚类调整阶段,A3S主动识别预期能最大程度提升NMI值的聚类对,并评估聚类中样本的纯度。如果聚类纯度高,则将查询结果为“必须链接”的聚类合并;如果纯度低,则将聚类分割为纯子聚类和离群点。这一过程重复进行,直到不再需要进行聚类合并和分割。
流程
A3S的工作流程包括两个主要阶段:自适应聚类阶段和主动聚类合并与分割阶段。在自适应聚类阶段,框架首先确定一个适当的聚类数量,然后使用指定的聚类算法生成初始聚类结果。在主动聚类合并与分割阶段,A3S根据成对约束策略性地选择聚类对进行合并或分割。具体流程如下:
- 使用自适应聚类算法确定初始聚类数量并生成聚类结果。
 - 根据成对约束选择聚类对。
 - 对选定的聚类对进行纯度测试。
 - 如果聚类对通过纯度测试,则查询其中心样本,根据查询结果决定是否合并聚类。
 - 如果聚类对未通过纯度测试,则将其分割为纯子聚类。
 - 重复上述过程,直到不再需要进行聚类合并和分割。
 
应用
A3S框架在缺乏先验数据信息(如类别数量或样本分布)的聚类任务中表现出色,尤其适用于需要定期数据聚合的实际应用场景,如每周更新数据集。此外,A3S能够有效地管理数据集中的冗余信息,适用于大型数据集的处理。
