MM-Instruct:引领大型多模态模型的新纪元
摘要
本文介绍了一种名为MM-Instruct的大型多模态模型对齐数据集,旨在提升大型多模态模型(LMMs)的指令遵循能力。传统的视觉指令数据集主要集中在问答任务上,难以泛化到更广泛的实际应用场景,如创意写作、摘要或图像分析。MM-Instruct通过利用现有大型语言模型(LLMs)的强大指令遵循能力,从大规模的传统图像字幕数据集中生成新颖的视觉指令数据。该方法首先利用ChatGPT从一组种子指令中自动生成多样化的指令,然后将其与图像匹配,并使用开源的大型语言模型(LLM)生成与指令-图像对一致的答案。此外,本文还引入了一个基于生成指令数据的基准,用于评估现有LMMs的指令遵循能力。实验证明,通过在生成的数据上训练LLaVA-1.5模型,即LLaVA-Instruct,其在指令遵循能力上显著优于LLaVA-1.5模型。
原理
MM-Instruct的工作原理基于以下几个关键步骤:首先,利用ChatGPT从有限的种子指令中生成多样化的指令,这些指令通过增强和摘要处理,确保其多样性和高质量。接着,这些生成的指令与图像进行匹配,并使用一个开源的大型语言模型(LLM)来生成与指令和图像内容一致的答案。在整个答案生成过程中,LLM通过图像的详细文本描述来确保指令数据的对齐。此外,通过引入一个基准,使用生成的指令数据来评估现有LMMs的指令遵循能力。这种方法的核心在于利用LLMs的强大生成能力和指令遵循能力,将传统的图像字幕数据转化为丰富的视觉指令数据,从而提升LMMs在实际应用中的性能。
流程
MM-Instruct的工作流程包括以下几个主要步骤:
- 指令生成:从一组种子指令开始,使用ChatGPT生成多样化的指令。这些指令通过增强和摘要处理,确保其多样性和高质量。
 - 指令匹配:将生成的指令与相关图像进行匹配,使用预训练的CLIP模型来选择合适的指令。
 - 答案生成:利用一个强大的LLM生成与指令-图像对一致的答案,确保答案与图像内容和指令保持一致。
 - 数据过滤:通过一系列启发式方法过滤掉低质量的实例,确保数据集的高质量。
 - 模型训练与评估:使用生成的指令数据训练LLaVA-Instruct模型,并通过一个自动化评估流程来评估模型的指令遵循能力。
 
例如,对于给定的图像和指令“Compose an Instagram post inspired by the given image”,LLaVA-Instruct能够生成包含吸引人的表情符号和标签的帖子,而不仅仅是描述图像内容。
应用
MM-Instruct的应用前景广泛,特别是在需要复杂指令遵循能力的实际应用场景中,如创意写作、摘要、图像分析等。通过提升LMMs的指令遵循能力,MM-Instruct能够使模型更好地理解和执行用户的复杂指令,从而在教育、娱乐、内容创作等多个领域发挥重要作用。此外,MM-Instruct的数据集和基准为未来在多模态模型研究提供了宝贵的资源和评估工具。
