"重塑视觉提示:多模态大型语言模型的新纪元"
摘要
本文探讨了多模态大型语言模型(MLLMs)在处理图像中细粒度或空间密集信息时的挑战。传统的MLLMs在处理需要理解详细或局部视觉元素的问题时存在局限性,如无法准确计数物体或输出特定物体的位置。为了解决这一问题,本文提出了一种新的视觉提示方法,通过集成来自专业视觉模型(如实例分割/OCR模型)的细粒度外部知识,直接将这些信息嵌入到空间嵌入图中作为视觉提示。这种方法可以显著提高MLLMs的视觉理解性能,尤其是在处理需要细粒度上下文感知的任务时。实验结果表明,该方法在九个基准测试中均能提升MLLM的性能。
原理
本文提出的视觉提示方法的核心在于利用现有的视觉模型(如全景分割和OCR检测模型)生成像素级的文本嵌入,这些嵌入作为局部上下文信息服务于MLLMs。具体来说,首先通过全景分割模型和OCR模型获取图像中的细粒度外部知识,然后利用预训练的文本编码器生成这些知识的文本嵌入。接着,将这些文本嵌入以空间方式扩展到原始视觉提示中,形成一个包含丰富上下文信息的辅助视觉提示。最后,将这个辅助视觉提示集成到MLLMs中,通过像素级的信息融合,使模型能够更好地理解图像中的局部细节和全局上下文。
流程
- 生成辅助视觉提示:使用全景分割模型和OCR模型对输入图像进行处理,获取图像中的物体区域和文本信息。
 - 生成文本嵌入:利用预训练的文本编码器将获取的物体类别和文本信息转换为文本嵌入。
 - 构建辅助视觉提示:将生成的文本嵌入填充到对应物体区域的像素位置,形成一个包含细粒度上下文信息的辅助视觉提示。
 - 集成到MLLMs:将辅助视觉提示与原始图像特征进行像素级的融合,通过特征融合或特征加法的方式,将辅助视觉提示的信息融入到MLLMs中。
 - 训练与优化:使用包含视觉提示的MLLMs进行训练,通过最大化生成令牌与真实答案的匹配概率来优化模型参数。
 
应用
本文提出的方法不仅限于特定的MLLMs,如LLaVA和Mipha,而且可以广泛应用于需要细粒度视觉理解的多种场景,如图像识别、视觉问答、机器人导航等。随着技术的进一步发展和优化,这种方法有望推动多模态AI系统在更广泛领域的应用,特别是在需要高度上下文感知和精确视觉理解的复杂任务中。
