探索AI的共同语言:语言模型与视觉模型共享概念表示的发现

Do Vision and Language Models Share Concepts? A Vector Space Alignment Study

摘要

本文探讨了大规模预训练语言模型(LMs)和计算机视觉模型(VMs)是否共享对世界的概念表示。通过对比BERT、GPT-2、OPT和LLaMA-2等四种LMs与ResNet、SegFormer和MAE等三种VMs的表示空间,研究发现LMs和VMs的表示空间在结构上存在相似性,这种相似性随着模型规模的增大而增强。这一发现对多模态处理和LMs理解争论具有重要意义。

原理

研究通过测量不同LMs和VMs学习到的表示几何相似性来进行评估。使用Procrustes分析方法,基于双模态词典(bimodal dictionary)对VMs和LMs的表示进行线性投影,从而实现图像表示到语言空间的映射。实验结果显示,随着LMs规模的增大,其表示空间与VMs的相似性增加,表明LMs在一定程度上能够捕捉到与VMs相似的世界模型。

流程

  1. 选择并准备LMs和VMs的模型实例。
  2. 提取图像和文本的表示(embeddings)。
  3. 使用Procrustes分析进行线性投影,将VMs的图像表示映射到LMs的语言空间。
  4. 评估映射后的表示在语言空间中的精确度,使用P@k指标衡量。
  5. 分析模型规模对表示相似性的影响,以及不同因素(如图像和语言的分散度、多义性和频率)对映射性能的影响。

应用

这一研究揭示了LMs和VMs在表示世界概念上的潜在一致性,为多模态学习、语言模型理解以及AI领域的理论探讨提供了新的视角。未来可能的应用包括改进的跨模态知识转移、增强的语言模型理解和更深层次的AI系统集成。