SEMINAR:革新终身序列推荐的多模态兴趣网络与近似检索技术
摘要
本文介绍了一种名为SEMINAR的新型终身序列推荐模型,该模型通过增强的多模态兴趣网络和近似检索技术,有效地解决了用户行为序列建模中的关键问题。SEMINAR模型特别针对用户长期行为序列中的ID嵌入学习不足和多模态特征对齐问题,提出了一种预训练搜索单元(PSU)来缓解这些问题。此外,为了加速在线检索速度,SEMINAR采用了一种基于多模态码本的产品量化策略,显著降低了时间复杂度。实验结果表明,SEMINAR在多个真实世界数据集上均表现出色,具有广泛的应用前景。
原理
SEMINAR模型的核心在于其预训练搜索单元(PSU),该单元通过多任务学习方式,包括多模态对齐、下一查询-项目对预测和查询-项目相关性预测等,来学习用户长期行为序列中的多模态查询-项目对。PSU通过预训练-微调的方式,使得下游模型能够利用预训练的嵌入作为初始化,进一步微调网络。此外,SEMINAR还引入了一种多模态产品量化策略,通过将多模态项目表示转换为离散整数码,利用量化码本进行近似注意力计算,从而大幅减少在线服务时的计算复杂度。
流程
SEMINAR模型的工作流程包括以下几个关键步骤:
- 数据预处理:将用户的行为序列分割成多个异构子序列,包括搜索查询序列和浏览推荐项目序列。
 - 预训练阶段:使用PSU网络对多模态查询-项目对进行预训练,通过多个预训练任务学习序列中的ID特征和多模态对齐。
 - 微调阶段:在下游任务中,模型使用预训练的嵌入作为初始化,并通过特定的投影权重矩阵对序列进行转换。
 - 在线服务:在在线服务阶段,模型使用多模态产品量化策略进行近似注意力计算,通过预计算的距离表查找和求和操作,高效地进行检索。
 
应用
SEMINAR模型在点击率预测和个性化搜索排序等任务中展现出强大的性能,适用于各种在线平台,如电子商务、内容推荐系统等。其高效的多模态处理能力和近似检索技术使其在处理大规模用户行为数据时具有显著优势,预计将在未来的推荐系统中发挥重要作用。
