MMBee:引领直播礼物推荐新纪元——基于多模态融合与行为扩展的先进模型
摘要
本文介绍了一种名为MMBee的新型实时多模态融合和行为扩展模型,用于直播礼物发送预测。直播服务因其实时互动和娱乐性而日益流行,观众可以通过聊天、发送评论或虚拟礼物来表达对主播的偏好。准确建模礼物互动不仅增强了用户体验,还增加了主播的收入。以往的研究将直播礼物预测视为传统的推荐问题,使用分类数据和观察到的历史行为来建模用户偏好。然而,使用有限的分类信息精确描述直播中的实时内容变化是具有挑战性的。此外,由于礼物行为的稀疏性,捕捉用户的偏好和意图相当困难。MMBee模型通过实时多模态融合和行为扩展来解决这些问题,具体包括多模态融合模块(MFQ)和图引导的兴趣扩展(GIE)方法。实验结果表明,MMBee在公共数据集和快手真实世界直播数据集上都取得了显著的性能提升,并通过在线A/B实验进一步验证了其有效性。MMBee已在快手部署,服务于数亿用户。
原理
MMBee模型的核心在于其多模态融合模块(MFQ)和图引导的兴趣扩展(GIE)方法。MFQ模块通过可学习的查询(Learnable Query)感知直播片段的动态内容,并处理包括图像、文本评论和语音在内的复杂多模态交互。GIE方法通过在大规模礼物图上学习用户和主播的表示,结合多模态属性,缓解了礼物行为的稀疏性问题。GIE包括两个主要部分:图节点表示预训练和基于元路径的行为扩展,这些都有助于模型跳出具体的历史礼物行为进行探索,并丰富行为表示。
流程
MMBee的工作流程分为两个阶段:离线图引导的兴趣扩展(GIE)阶段和在线GTR预测阶段。在GIE阶段,模型基于目标用户和主播进行行为扩展;在在线预测阶段,模型聚合实时多模态内容和扩展行为进行端到端训练。具体来说,MFQ模块首先处理直播片段中的多模态特征,然后通过交叉注意力和自注意力机制进行融合。GIE模块则通过预定义的元路径扩展用户和主播的行为序列,并将这些扩展序列与GTR预测目标进行端到端优化。
应用
MMBee模型不仅适用于直播礼物预测任务,还具有广泛的应用前景。由于其能够有效处理多模态数据和稀疏行为问题,MMBee可以应用于其他需要多模态推荐和用户行为分析的场景,如电子商务推荐、社交媒体内容推荐等。随着直播和多模态数据的普及,MMBee有望在多个领域发挥重要作用,提升推荐系统的性能和用户体验。
