AlphaRec:利用语言模型革新推荐系统的新范式

Language Models Encode Collaborative Signals in Recommendation

摘要

本文探讨了语言模型(LMs)在推荐系统领域中的应用,特别是它们是否能够隐式地编码用户偏好信息。传统观点认为LMs和推荐模型由于语言和行为建模目标的巨大差异,学习的是两个不同的表示空间。然而,本文通过实验证明,从先进的LMs表示空间线性映射得到的物品表示能够显著提升推荐性能,这表明语言表示空间和有效推荐空间之间存在同态关系。基于这一发现,作者提出了一个简单而有效的协同过滤(CF)模型AlphaRec,该模型利用物品文本元数据(如标题)的语言表示,而不是传统的基于ID的嵌入,从而在多个数据集上超越了领先的基于ID的CF模型。AlphaRec的提出标志着基于文本嵌入的推荐系统的新范式的开始,具有易于实现、轻量级、快速收敛、在新领域中具有出色的零样本推荐能力以及能够理解用户意图等优点。

原理

AlphaRec模型的核心在于利用预训练的语言模型(如BERT、RoBERTa等)生成的物品文本元数据(如标题)的表示,通过线性映射将其转换为推荐空间中的物品表示。这种转换揭示了语言模型表示空间与推荐系统有效表示空间之间的同态关系。AlphaRec模型包含三个主要组件:多层感知机(MLP)、图卷积网络(GCN)和对比学习(CL)损失函数。MLP用于非线性映射,GCN用于捕捉高阶协同信号,CL损失函数用于优化模型参数。通过这种结构,AlphaRec能够有效地从语言表示中提取用户偏好相似性,并在推荐任务中实现高性能。

流程

AlphaRec的工作流程如下:

  1. 使用预训练的语言模型生成物品文本元数据的表示。
  2. 通过MLP将这些表示映射到推荐空间中。
  3. 利用GCN捕捉用户-物品交互图中的高阶协同信号。
  4. 使用对比学习损失函数优化模型参数,确保用户和物品表示在推荐空间中的相似性匹配。
  5. 在推荐时,根据用户的历史交互和物品的表示进行相似性计算,推荐最相关的物品。

例如,在电影推荐场景中,AlphaRec会首先使用预训练的语言模型生成电影标题的表示,然后通过MLP和GCN处理这些表示,最后根据用户的观看历史和电影表示进行推荐。

应用

AlphaRec模型的应用前景广泛,特别是在需要处理大量文本数据和理解用户意图的推荐场景中。由于其零样本推荐能力和对用户意图的敏感性,AlphaRec可以应用于新产品的推广、个性化内容推荐、跨领域推荐等多种场景。此外,AlphaRec的轻量级和快速收敛特性使其易于部署和维护,适合在各种规模的推荐系统中使用。