"解构复杂问题:基于知识与视觉推理的VQA新方法"
摘要
本文研究了基于知识的视觉问答(KB-VQA)问题,其中模型需要将问题与视觉模态相结合以找到答案。尽管近期许多工作使用问题依赖的图像描述生成器和大型语言模型(LLM)来解决VQA问题,但研究结果显示它们在处理多跳问题时表现不佳。本文提出通过将复杂问题分解为多个简单问题来提取更多相关信息,并增强对图像的理解。此外,通过分析分解后的问题,确定所需信息的模态,并使用图像描述生成器处理视觉问题,同时使用LLM作为非视觉KB-VQA问题的通用知识源。实验结果表明,在OKVQA、A-OKVQA和KRVQA三个知名VQA数据集上,使用简单问题进行信息检索前的方法提高了准确率,最高可达2%。
Read more...








