探索时间序列预测的新前沿:多分辨率标记化Transformer架构

Multiple-Resolution Tokenization for Time Series Forecasting with an Application to Pricing

摘要

本文提出了一种针对时间序列预测的Transformer架构,特别关注时间序列的标记化(tokenization),并将其应用于定价领域的实际预测问题。该架构旨在同时学习所有可用数据在多个尺度上的有效表示。模型包含多个创新模块:一种采用多分辨率的时间序列分块方法、一个用于时间变化已知变量的多分辨率模块、一个基于混合器的模块用于捕捉跨序列信息,以及一个具有有利缩放特性的新型输出头,以应对增加的标记数量。本文展示了该模型在大型零售商降价团队面临的实际预测问题中的应用,实验表明该模型优于内部模型和选定的现有深度学习架构。

原理

该模型的核心在于多分辨率标记化(Multiple-Resolution Tokenization, MRT),通过在同一注意力机制中使用来自多个分辨率的标记,实现跨多个数据类型的显式成对建模。模型通过多个分块模块(divider blocks)将时间序列分割成不同分辨率的多个部分,并学习线性投影将这些部分映射到潜在空间。此外,模型还设计了单独的标记化方案来处理不同类型的辅助数据,从而显式地学习时间序列的上下文表示,减少过拟合。

流程

模型的工作流程包括以下几个关键步骤:

  1. 多分辨率分块(Multiple-Resolution Patching, MRP):将时间序列分割成多个分辨率的部分,并通过线性投影将其映射到潜在空间。
  2. 处理辅助信息:为不同类型的辅助数据设计单独的标记化方案,包括时间变化的已知变量(TVK)和静态变量。
  3. 跨序列信息提取:使用通道混合器(channel mixer)模块从所有现有标记中提取跨序列标记(CST)。
  4. 输出头:提出一种具有有利缩放特性的新型输出头架构,称为反向分块(reverse splitting),用于生成最终的预测输出。

应用

该模型在定价领域的实际预测问题中表现出色,显示出在复杂和噪声较大的真实世界问题中的强大潜力。未来,该模型可以进一步扩展到其他领域的时间序列预测问题,特别是在需要处理大量辅助信息和跨序列关系的场景中。