"从最少到最多:构建即插即用的视觉推理器"

From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis

摘要

本文探讨了视觉语言模型(VLMs)在多步骤推理中的应用,这是一个由于缺乏包含多步骤视觉和语言处理的数据而具有挑战性的问题。为了克服这一挑战,研究者提出了一种从最少到最多的视觉推理范式,该范式通过分解问题为子问题并调用外部工具来解决这些子问题。此外,还提出了一种新颖的数据合成方法,能够以自底向上的方式自动为图像创建问题和多步骤推理路径。这种方法将复杂的合成任务分解为几个简单的子任务,并几乎完全依赖开源模型来完成这些子任务,从而确保了合成过程的可重复性和成本效益。通过这种方法,研究者构建了50,000个视觉推理示例,并通过监督微调开发了一个视觉推理器,能够以即插即用的方式普遍增强现有VLMs的推理能力。实验表明,该视觉推理器能够持续且显著地提高四个VLMs在四个VQA基准上的性能。

原理

本文提出的视觉推理器通过一种创新的“从最少到最多”的推理范式工作,该范式要求模型将复杂问题分解为一系列子问题,并通过调用外部工具逐步解决这些子问题。具体来说,推理过程包括四个步骤:实体识别、节点构建、推理路径合成和问题合成。每个步骤都依赖于开源模型,确保了方法的可重复性和成本效益。例如,在实体识别步骤中,使用Deformable DETR来识别图像中的实体;在节点构建步骤中,根据识别的实体自动构建节点,每个节点包含一个图像和一个文本描述。推理路径合成步骤则通过连接一系列节点来形成推理路径,每个节点代表一个子问题和相应的工具调用。最后,问题合成步骤通过递归组合子问题来生成主要问题。

流程

本文的工作流程详细描述了如何通过四个步骤来构建视觉推理数据集。首先,通过实体识别步骤识别图像中的所有实体。接着,在节点构建步骤中,根据识别的实体构建三种类型的节点,每种节点聚合图像和一些文本特征。然后,在推理路径合成步骤中,从构建的节点集中采样一系列节点,并通过连接这些节点来形成推理路径。最后,在问题合成步骤中,通过递归组合推理路径中的子问题来生成主要问题。整个流程几乎完全依赖开源模型,确保了数据合成的质量和可重复性。

应用

本文提出的视觉推理器具有广泛的应用前景,特别是在需要复杂视觉推理的任务中,如视觉问答(VQA)和图像理解。通过增强现有VLMs的推理能力,该推理器可以应用于各种需要高级视觉处理和理解的场景,包括但不限于教育、医疗、安全和娱乐等领域。此外,由于其即插即用的特性,该推理器可以轻松集成到现有的视觉语言处理系统中,为这些系统提供更强大的推理功能。