MCDDD:一种基于最大概念差异的无监督在线概念漂移检测方法

Online Drift Detection with Maximum Concept Discrepancy

摘要

本文介绍了一种名为MCDDD(Maximum Concept Discrepancy-based Drift Detector)的新型概念漂移检测方法,该方法基于最大概念差异(MCD),灵感来源于最大均值差异(MMD)。MCDDD能够在无监督和在线环境下,通过对比学习概念嵌入,自适应地识别数据流中的各种概念漂移,无需依赖标签或统计属性。通过在合成和真实世界场景中的全面实验,证明了该方法在识别概念漂移方面优于现有基线,并提供了高可解释性的定性分析。

原理

MCDDD的核心在于利用最大概念差异(MCD)来检测概念漂移。MCD是通过深度神经网络编码的样本数据点集,通过对比学习策略学习概念嵌入空间。该方法通过生成来自时间上接近的分布的正样本对和来自时间上远离的分布的负样本对,并引入受控扰动,不断更新嵌入空间,使正样本更接近,负样本更远离。概念漂移通过评估连续时间段内概念表示之间的差异来识别。此外,两个概念之间的最大概念差异可以通过统计显著性来界定,为检测概念漂移提供理论阈值和高可解释性。

流程

MCDDD的工作流程包括以下步骤:

  1. 漂移检测:获取滑动窗口中的样本集,并通过样本集编码器获得概念表示。如果连续子窗口间的MCD值超过阈值,则报告概念漂移。
  2. 编码器更新:获取正样本、弱负样本和强负样本,计算损失并通过损失更新编码器参数。同时,根据正样本动态调整漂移检测的阈值。
  3. 优化:通过对比学习目标函数优化样本集编码器,最小化正样本对之间的距离,最大化负样本对之间的距离。

应用

MCDDD适用于需要连续学习和适应数据流变化的在线服务,如天气预测、传感器数据监控和脑电波分析等。该方法的高效性和可解释性使其在实际应用中具有广泛的前景,特别是在需要快速响应和准确解释数据变化的领域。