提升推荐系统解释性:基于正未标记学习的创新方法

Positive-Unlabelled Learning for Improving Image-based Recommender System Explainability

摘要

本文探讨了基于用户上传物品图像的推荐系统(RS)解释性的改进方法。当前模型在定义训练数据时,假设所有用户上传的图像都可以作为负面训练示例,这种假设过于简单且不准确。本文提出了一种新的解释器训练流程,利用正未标记(PU)学习技术,通过一种新颖的用户个性化、两步相似性基础的PU学习算法,为每个用户选择可靠的负面示例子集。实验结果表明,这种基于PU的方法在六个流行的真实世界数据集中优于现有的非PU方法,证明了通过提高训练数据质量而非增加模型复杂度可以改善基于视觉的RS解释性。

原理

本文的核心在于利用正未标记(PU)学习技术来改进基于用户上传图像的推荐系统解释性。PU学习是一种机器学习范式,适用于只有正例和未标记示例的数据场景,其中没有已知的负例训练示例。本文通过两步PU学习方法,首先为每个用户创建一个个性化的、高质量的训练集,包含已知的正例(用户上传的图像)和可靠的负例(与用户上传图像非常不相似的图像),从而减少标签噪声,提高训练过程的有效性。这种方法通过相似性度量和Rocchio分类,确保选择的负例与用户的正例图像不相似,从而提高解释器的性能。

流程

本文提出的工作流程包括以下步骤:

  1. 数据准备:使用用户在TripAdvisor上上传的餐厅图像作为数据集。
  2. 数据分割:采用用户级别的Leave-one-out方法进行数据分割,确保模型不会在未训练过的用户上进行测试。
  3. PU学习方法
    • 第一步:为每个用户计算其上传图像的质心(centroid),作为正例的表示。
    • 第二步:通过相似性度量(如余弦相似度)选择与用户质心不相似的图像作为负例。
  4. 模型训练:使用改进的训练数据集(包含正例和可靠的负例)训练解释器模型。
  5. 模型评估:通过Recall@k和NDCG@k等指标评估模型性能,并与现有方法进行比较。

应用

本文提出的PU学习方法不仅提高了推荐系统解释性的质量,还保持了模型的简洁性和计算效率。这种方法可以广泛应用于各种需要个性化解释的推荐系统场景,如电子商务、旅游推荐等,有助于提高用户对推荐系统的信任和满意度。