MM-Instruct:引领大型多模态模型的新纪元
摘要
本文介绍了一种名为MM-Instruct的大型多模态模型对齐数据集,旨在提升大型多模态模型(LMMs)的指令遵循能力。传统的视觉指令数据集主要集中在问答任务上,难以泛化到更广泛的实际应用场景,如创意写作、摘要或图像分析。MM-Instruct通过利用现有大型语言模型(LLMs)的强大指令遵循能力,从大规模的传统图像字幕数据集中生成新颖的视觉指令数据。该方法首先利用ChatGPT从一组种子指令中自动生成多样化的指令,然后将其与图像匹配,并使用开源的大型语言模型(LLM)生成与指令-图像对一致的答案。此外,本文还引入了一个基于生成指令数据的基准,用于评估现有LMMs的指令遵循能力。实验证明,通过在生成的数据上训练LLaVA-1.5模型,即LLaVA-Instruct,其在指令遵循能力上显著优于LLaVA-1.5模型。
Read more...








