革新情境偏好排序:基于InfoNCE损失的CLIP框架适应性研究

Contrastive Learning of Preferences with a Contextual InfoNCE Loss

摘要

本文由Timo Bertram等人撰写,针对在情境偏好排序中常见的问题——单一偏好动作与多个选择进行比较,导致复杂性增加和偏好分布偏斜,提出了一种解决方案。通过适应CLIP框架中的InfoNCE损失,作者在可收集卡牌游戏领域展示了其方法的有效性,旨在学习一个能够捕捉单张卡牌与整个卡池之间关联的嵌入空间,基于人类的选择。研究结果表明,未经修改的CLIP在这些问题上表现不佳,但通过适应性调整,模型性能超过了使用三元组损失训练的前期工作,并缓解了与挖掘三元组相关的问题。

原理

本文的核心在于对CLIP框架中的InfoNCE损失进行适应性调整,以解决情境偏好排序中的特定问题。InfoNCE损失原本用于计算机视觉和多模态领域,通过批量构造技术比较任意项目,但在一个项目在同一批次中有多个正向关联时,这种方法定义不明确。作者通过修改批量构造技术,使得模型能够仅基于训练数据中明确包含的偏好进行训练,从而提高了预测性能并加速了训练过程。

流程

作者在可收集卡牌游戏中的卡牌选择应用场景中,展示了如何通过适应CLIP框架来解决情境偏好排序问题。具体来说,他们从数据集中采样决策形式(C, P),并使用标签函数f来识别在卡包中选择的卡牌。通过训练一个卡池编码网络和一个卡牌编码网络,创建了一个多模态嵌入空间,该空间最大化所选卡牌与卡池之间的余弦相似度,同时最小化未选卡牌与卡池之间的相似度。这一过程通过创建一个N × M的相似度矩阵和一个N × M的掩码矩阵来实现,掩码矩阵标记了有效和无效的比较,从而在计算损失时仅考虑有效的比较。

应用

本文提出的适应性InfoNCE损失方法不仅在可收集卡牌游戏领域显示出优越性能,而且其原理可以广泛应用于需要情境偏好排序的多个领域,如团队建设、推荐系统等。这种方法为未来在情境偏好方面的研究提供了一个强有力的基线,具有广泛的应用前景。