探索多模态问答的新前沿:SMMQG框架的先进性与应用
摘要
本文介绍了一种名为SMMQG的合成多模态问题生成框架,该框架利用检索器、大型语言模型(LLM)和大型多模态模型(LMM)的相互作用,直接从多模态文档中生成符合特定风格和模态的问题和答案对。SMMQG能够生成包含文本、表格和图像等多种模态的问题,并通过人工研究和数据集一致性分析,证明了其生成的数据质量与人工标注的MMQA数据集相当,且在下游评估中显示出强烈的一致性。
原理
SMMQG框架通过五个步骤生成多模态问题和答案:首先,从多模态源中采样一个种子源;其次,从种子源中提取一个显著实体;然后,使用提取的实体作为查询,从多模态源中检索候选源;接着,通过LLM或LMM生成问题和答案,并选择问题源;最后,验证生成的问题和答案是否符合指定的风格和模态要求。SMMQG的关键创新在于其能够精细控制问题的风格和模态,生成既有多模态又有特定风格的问题。
流程
SMMQG的工作流程包括:
- 采样种子源:从多模态源中选择一个种子源,使用加权采样方法以避免无关或离群源。
 - 提取实体:使用GPT-4-Turbo从种子源中提取一个显著实体,提高问题的多样性。
 - 检索候选源:使用E5-Large检索器,以提取的实体为查询,检索与实体语义相关的候选源。
 - 问题生成:将候选源传递给LLM或LMM,结合任务指令、问题风格描述和模态要求生成问题和答案。
 - 问题验证:通过LLM或LMM验证生成的问题是否符合风格和模态要求,以及答案是否正确。
 
应用
SMMQG生成的多模态问题和答案数据集可用于评估和训练多模态问答系统,特别是在需要特定风格和模态的问题时。该框架的应用前景广泛,包括教育、信息检索、智能助手等多个领域,能够帮助揭示模型在特定风格和模态问题上的性能,从而推动多模态问答系统的发展和应用。
