MATE:连接图像与长文本的新方法,开启跨模态交互新纪元
摘要
本文介绍了一种名为MATE(Meet At The Embedding)的新方法,旨在解决视觉语言模型(VLM)在处理长文本(如长描述或文档)时的局限性。MATE通过结合VLM和大型语言模型(LLM)的能力,无需额外的图像-长文本对,实现了图像与长文本的有效对齐。该方法通过一个投影模块,将VLM的文本编码器替换为预训练的LLM编码器,以更好地理解长文本。此外,MATE引入了两个新的跨模态检索基准,以评估图像与长文本连接的任务。实验结果表明,MATE能够有效地连接图像与长文本,揭示多样的语义关系。
原理
MATE的工作原理基于两个主要阶段:文本到LLM的对齐和图像到LLM的对齐。在文本到LLM对齐阶段,首先使用大规模的文本对预训练投影模块,以对齐VLM文本编码器和LLM编码器。然后,使用包含丰富文本信息的查询-文档对进行微调。在图像到LLM对齐阶段,将这个文本训练的模块适应到VLM图像编码器,使用最少的图像-描述对进行训练,以对齐图像嵌入和LLM嵌入。这种方法通过多阶段训练策略,逐步增强VLM和LLM之间的对齐,从而实现图像与长文本的有效连接。
流程
MATE的工作流程包括以下步骤:
- 使用VLM的图像编码器和LLM的文本编码器。
- 通过投影模块将VLM嵌入转换为LLM嵌入空间。
- 在文本到LLM对齐阶段,预训练投影模块以对齐VLM文本编码器和LLM编码器。
- 使用查询-文档对进行微调,以进一步对齐文本嵌入。
- 在图像到LLM对齐阶段,将文本训练的投影模块适应到VLM图像编码器,对齐图像嵌入和LLM嵌入。
- 通过这两个阶段的多阶段训练,MATE能够有效地连接图像与长文本。
应用
MATE的应用前景广泛,特别是在需要处理复杂文本交互的场景中,如图像与长描述的关联、文档检索等。此外,MATE的能力还可以扩展到多语言环境中,通过LLM的多语言能力,实现跨语言的图像与文本对齐。随着技术的进一步发展,MATE有望在教育、医疗、媒体等多个领域发挥重要作用,提供更丰富、更精确的图像与文本交互体验。
