探索时间序列聚类新境界:基于通用状态空间模型的创新方法
摘要
本文提出了一种基于通用状态空间模型(General State Space Models, GSSMs)的时间序列聚类新方法,通过混合状态空间模型(Mixtures of State Space Models, MSSMs)实现。每个MSSM组件与一个聚类相关联,该方法的优势在于能够使用适合特定时间序列的模型,从而提高聚类和预测的准确性,并增强参数估计的可解释性。参数估计采用随机变分推断(Stochastic Variational Inference, SVI),通过神经网络和归一化流作为变分估计器来估计任意状态空间模型的潜在变量。此外,使用贝叶斯信息准则(Bayesian Information Criterion, BIC)来估计聚类数量,并提出熵退火等优化技巧以防止MSSMs收敛到局部最优。实验结果表明,该方法在模拟数据集上对聚类、参数估计和聚类数量估计均有效。
原理
该方法的核心在于使用混合状态空间模型(MSSMs)进行时间序列聚类。每个MSSM组件代表一个聚类,通过随机变分推断(SVI)来估计模型参数。SVI是一种变分推断的子类型,通过神经网络和归一化流来提高近似分布的表达能力。具体来说,SVI通过最小化近似分布和真实后验分布之间的KL散度来优化参数。此外,通过引入熵退火等优化技巧,防止模型在训练初期就收敛到局部最优,从而提高参数估计的稳定性。
流程
- 模型定义:定义混合状态空间模型(MSSMs),每个组件代表一个聚类。
 - 参数估计:使用随机变分推断(SVI)来估计模型参数,通过神经网络和归一化流来提高近似分布的表达能力。
 - 聚类数量估计:使用贝叶斯信息准则(BIC)来估计聚类数量。
 - 优化技巧:引入熵退火等优化技巧,防止模型收敛到局部最优。
 - 实验验证:在模拟数据集上验证方法的有效性,包括聚类、参数估计和聚类数量估计。
 
应用
该方法适用于需要对时间序列数据进行聚类的广泛领域,如医学(如心电图数据分析)、经济学(如行业趋势分析)和工程学(如工业机械监控)。通过提高聚类和预测的准确性,该方法能够为这些领域的决策提供更可靠的支持。此外,该方法的可解释性参数估计也为模型的进一步优化和应用提供了便利。
