"从最少到最多:构建即插即用的视觉推理器"
摘要
本文探讨了视觉语言模型(VLMs)在多步骤推理中的应用,这是一个由于缺乏包含多步骤视觉和语言处理的数据而具有挑战性的问题。为了克服这一挑战,研究者提出了一种从最少到最多的视觉推理范式,该范式通过分解问题为子问题并调用外部工具来解决这些子问题。此外,还提出了一种新颖的数据合成方法,能够以自底向上的方式自动为图像创建问题和多步骤推理路径。这种方法将复杂的合成任务分解为几个简单的子任务,并几乎完全依赖开源模型来完成这些子任务,从而确保了合成过程的可重复性和成本效益。通过这种方法,研究者构建了50,000个视觉推理示例,并通过监督微调开发了一个视觉推理器,能够以即插即用的方式普遍增强现有VLMs的推理能力。实验表明,该视觉推理器能够持续且显著地提高四个VLMs在四个VQA基准上的性能。
Read more...








