探索模糊聚类的新境界:一种创新的簇有效性度量指标
摘要
本文提出了一种新的模糊C均值聚类(Fuzzy C-Means, FCM)的有效性度量指标。该指标利用模糊簇之间的接近度来衡量簇间的重叠程度,通过最小化簇间接近度来获得最佳的模糊C分区。通过在多个知名数据集上的实验,证明了该指标的有效性和可靠性。关键词:簇有效性,模糊聚类,模糊C均值。
原理
本文提出的簇有效性指标基于模糊簇之间的接近度关系。接近度值既反映了簇间的重叠程度,也反映了簇间的分离距离。较小的接近度值意味着较低的簇间重叠和较远的簇间分离,从而得到良好的分区。该指标通过计算模糊簇之间的相似性来评估模糊分区,利用整体的几何结构信息来推导数据结构的有效解释。
流程
- 对于每个模糊簇,计算在给定成员度µ下的两个模糊簇之间的接近度值。
 - 通过聚合所有数据点的接近度值和权重,得到总簇间接近度。
 - 定义一个新的簇有效性指标,该指标通过平均所有簇间的接近度来评估模糊C分区。
 - 通过最小化该指标来获得最佳的模糊C分区。
 
例如,在图2中,展示了在成员度µ下两个模糊簇之间的接近度值。通过比较不同分区的接近度值,可以判断哪个分区具有更好的簇间分离。
应用
该指标可以广泛应用于数据挖掘和模式识别领域,特别是在需要进行模糊聚类的场景中。例如,在图像分割、生物信息学和社交网络分析等领域,该指标可以帮助识别最优的簇数,从而提高聚类结果的准确性和可靠性。
