Toto:开创性的时间序列预测模型,引领观测性数据分析的未来
摘要
本文介绍了一种名为Toto的新型时间序列优化Transformer模型,该模型由Datadog开发,专门用于观测性指标的预测。Toto模型在电力和天气等多个领域的通用时间序列基准测试中取得了最先进的性能,并且是首个针对观测性指标进行专门调优的通用时间序列预测基础模型。该模型通过引入先进的注意力机制和学生-T混合模型头,有效地捕捉了时间序列数据的复杂动态,并在多个开放基准数据集上实现了零样本性能的领先。
原理
Toto模型的核心创新在于其比例分解的空间-时间注意力机制和学生-T混合模型头。比例分解的空间-时间注意力机制允许模型高效地分组多变量时间序列特征,减少计算开销同时保持高准确性。学生-T混合模型头则通过使用概率模型,增强了模型对时间序列数据复杂动态的捕捉能力,提供了优于传统方法的性能。此外,Toto模型还特别预训练了Datadog观测性指标的大规模数据集,确保了在观测性指标预测中的高性能。
流程
Toto模型的工作流程包括输入时间序列的嵌入、通过Transformer堆栈处理、以及最终通过学生-T混合模型头生成预测。具体来说,输入时间序列首先通过补丁嵌入层进行嵌入,然后通过包含L个相同段的Transformer堆栈进行处理。每个Transformer段由一个空间Transformer块和N个时间Transformer块组成。最后,Transformer的输出被展平并通过学生-T混合模型头投影,生成输入序列的未来P步预测。
应用
Toto模型在观测性数据分析中具有广泛的应用前景,特别是在自动化异常检测和预测性警报等领域。由于其能够在高频率和高维度数据中提供稳健的解决方案,Toto模型对于监控和优化现代基础设施和应用程序的性能至关重要。此外,Toto模型的零样本预测能力使其在处理新时间序列数据时具有显著优势,特别是在云基础架构等动态环境中。
