Toto:开创性的时间序列优化转换器,引领观测性数据分析新纪元
摘要
本文介绍了一种名为Toto的新型时间序列预测基础模型,由Datadog开发。Toto模型专门针对观测性指标进行了优化,不仅在电力和天气等多个领域的时间序列基准测试中达到了最先进的水平,而且是首个专门为观测性指标调整的通用时间序列预测基础模型。Toto模型在包含一万亿时间序列数据点的数据集上进行了训练,其中75%的数据来自Datadog平台的全匿名数值指标数据点。实验结果显示,Toto在观测性数据上的表现优于现有时间序列基础模型,并在多个开放基准数据集上实现了零样本学习的最先进性能。
原理
Toto模型的核心创新在于其先进的注意力机制——比例分解时空注意力(Proportional Factorized Space-Time Attention),该机制能够有效地对多变量时间序列特征进行分组,减少计算开销同时保持高准确性。此外,Toto引入了学生-T混合模型头(Student-T Mixture Model Head),这是一种概率模型,能够更准确地捕捉时间序列数据的复杂动态,并提供比传统方法更优越的性能。Toto还特别预训练了一个大规模的Datadog观测性指标数据集,确保在观测性指标预测中具有增强的性能。
流程
Toto模型的输入时间序列首先通过补丁嵌入层进行嵌入,然后通过包含L个相同段的转换器堆栈传递。每个转换器段由一个空间转换器块和N个时间转换器块组成。转换器的输出被展平并投影,形成学生-T混合模型(SMM)头的参数。最终输出是对输入序列的未来P步(补丁宽度)的预测。例如,在ETTh1数据集上的96步零样本预测中,实线代表地面真实值,虚线代表中点点预测,阴影区域代表95%预测区间。
应用
Toto模型在观测性数据分析中具有广泛的应用前景,特别是在需要高时间分辨率、稀疏数据和极端动态范围的场景中。由于其能够处理高维数据并提供零样本预测,Toto模型非常适合于自动化异常检测和预测性警报等应用,尤其是在云基础架构和应用程序性能监控中。
