利用LLM加速个性化推荐系统:一种创新的老虎机初始化方法
摘要
本文介绍了一种创新的方法,通过将大型语言模型(LLMs)与上下文多臂老虎机(Contextual Multi-Armed Bandit, CB)框架结合,来优化推荐系统中的个性化建议。论文展示了LLMs在模拟人类行为和偏好方面的能力,从而能够为CB提供初始训练数据,减少在线学习中的遗憾(regret)。这种方法通过利用LLMs生成的合成奖励分布来预训练CB,显著降低了模型训练的数据收集成本和时间。实验结果表明,该方法在不同的CB设置中都能有效减少早期遗憾,显示出其在实际应用中的潜力和效率。
原理
论文提出的“上下文老虎机与LLM初始化(CBLI)”方法,利用LLMs在大量人类知识和偏好数据上的预训练优势,生成合成的人类偏好数据集。这些数据被用于预训练上下文多臂老虎机模型,以便在实际应用中快速适应用户偏好。LLMs通过模拟用户对不同选项的偏好,为每个用户生成一个偏好排序,这些排序随后被用于训练CB模型。这种方法的关键在于,即使LLMs生成的奖励分布不完全匹配真实人类偏好,它们仍然提供了一个比随机初始化更好的起点,从而加速了CB模型的学习和优化过程。
流程
论文详细描述了CBLI的工作流程,包括生成合成用户、计算文本嵌入、模拟用户偏好以及使用这些数据预训练CB模型。具体步骤如下:
- 生成合成用户:从特征空间中独立同分布地采样用户。
 - 计算文本嵌入:为每个用户计算文本嵌入,将其转换为上下文向量。
 - 模拟用户偏好:使用LLM模拟用户对不同选项的偏好。
 - 预训练CB模型:利用生成的用户和偏好数据预训练上下文多臂老虎机模型。
 - 在线学习:在实际用户数据上进一步微调预训练的CB模型。 论文还提供了具体的算法描述和实验设置,展示了如何在实际应用中实施这一流程。
 
应用
CBLI方法的应用前景广泛,特别是在需要个性化推荐和决策支持的系统中,如电子邮件营销、产品推荐和内容个性化等。通过减少数据收集和模型训练的前期成本,CBLI使得快速迭代和优化个性化策略成为可能,特别是在数据稀缺或隐私敏感的环境中。此外,该方法还可以扩展到其他需要模拟人类决策过程的领域,如医疗决策支持和教育个性化。
