"重塑视觉提示:多模态大型语言模型的新纪元"
摘要
本文探讨了多模态大型语言模型(MLLMs)在处理图像中细粒度或空间密集信息时的挑战。传统的MLLMs在处理需要理解详细或局部视觉元素的问题时存在局限性,如无法准确计数物体或输出特定物体的位置。为了解决这一问题,本文提出了一种新的视觉提示方法,通过集成来自专业视觉模型(如实例分割/OCR模型)的细粒度外部知识,直接将这些信息嵌入到空间嵌入图中作为视觉提示。这种方法可以显著提高MLLMs的视觉理解性能,尤其是在处理需要细粒度上下文感知的任务时。实验结果表明,该方法在九个基准测试中均能提升MLLM的性能。
Read more...








