CADC:革命性的数据压缩技术,助力深度学习推荐模型高效训练

CADC: Encoding User-Item Interactions for Compressing Recommendation Model Training Data

摘要

本文介绍了一种名为CADC(Collaborative Aware Data Compression)的新方法,旨在压缩深度学习推荐模型(DLRM)的训练数据。随着电子商务行业中DLRM的广泛应用,训练这些大型模型所需的数据量呈指数级增长,导致训练成本和资源需求急剧上升。CADC通过矩阵分解技术,有效地捕获用户-项目交互历史,从而在保持模型精度的同时,大幅减少训练数据集的大小。该方法在多个数据集上进行了测试,显示出在减少训练数据量的同时,能够有效维持推荐系统的性能。

原理

CADC的工作原理基于两个关键步骤:首先,利用矩阵分解(MF)对用户-项目交互矩阵进行分解,生成用户和项目的嵌入表示。这些嵌入通过包含交互历史信息得到丰富。其次,对训练数据集进行均匀随机采样,以显著减少数据集的大小,同时最小化模型精度的下降。通过这种方式,CADC能够在保持关键协作信息的同时,实现数据集的有效压缩。

流程

CADC的工作流程包括以下几个步骤:

  1. 矩阵分解:对用户-项目交互矩阵进行矩阵分解,生成用户和项目的嵌入向量。
  2. 嵌入丰富:通过包含交互历史信息,丰富用户和项目的嵌入向量。
  3. 数据采样:对训练数据集进行均匀随机采样,以减少数据集的大小。
  4. 模型训练:使用采样后的数据集训练DLRM模型,同时利用预训练的嵌入向量保持模型精度。

例如,在MovieLens 1M和10M数据集上的实验表明,即使只使用10%的原始数据,CADC仍能保持较高的推荐准确性。

应用

CADC方法的应用前景广泛,特别适用于需要处理大规模数据集的推荐系统。随着数据量的不断增长,CADC能够帮助企业降低训练成本,提高模型部署的效率。此外,该方法还可以扩展到其他需要数据压缩和高效处理的机器学习应用中。