"革新文本到图像生成:通过事实图像检索解决图像幻觉问题"

Addressing Image Hallucination in Text-to-Image Generation through Factual Image Retrieval

摘要

本文探讨了文本到图像生成模型中的一个关键问题——图像幻觉(Image Hallucination),即生成的图像与输入文本提示中的事实信息不一致。文章提出了一种基于事实图像检索的方法,通过从外部源检索相关图像来生成更真实的图像,从而解决这一问题。该方法利用现有的图像编辑工具,如InstructPix2Pix和IP-Adapter,结合检索到的事实图像,有效地纠正了图像生成中的幻觉现象,提高了生成图像的事实准确性和可信度。

原理

本文提出的方法主要通过以下步骤实现:首先,使用现有的文本到图像生成模型生成初始图像。然后,将输入的文本提示作为搜索查询,从外部源检索相关的事实图像。根据幻觉的类型,选择使用InstructPix2Pix或IP-Adapter工具。对于特定属性的幻觉,使用InstructPix2Pix通过生成基于差异的指令来纠正;对于广泛区域的幻觉,使用IP-Adapter通过生成描述检索图像的文本提示来纠正。这种方法无需额外的训练,通过用户交互选择检索图像,增强了编辑图像的可信度和用户的参与度。

流程

  1. 初始图像生成:使用DALL-E 3等模型根据输入文本提示生成初始图像。
  2. 事实图像检索:利用Google的Custom Search JSON API检索与输入文本提示相关的事实图像。
  3. 用户选择:用户从检索到的图像中选择最能代表所需事实信息的图像。
  4. 幻觉纠正
    • 对于特定属性的幻觉,使用InstructPix2Pix工具,通过GPT-4生成基于差异的指令,输入到InstructPix2Pix中进行图像编辑。
    • 对于广泛区域的幻觉,使用IP-Adapter工具,通过GPT-4生成描述检索图像的文本提示,与检索图像一起输入到IP-Adapter中进行图像编辑。
  5. 输出结果:生成纠正幻觉后的图像,确保图像与输入文本提示的事实信息一致。

应用

该方法在教育、新闻和历史再现等领域具有广泛的应用前景。通过生成事实准确的图像,可以提高AI模型在关键领域的可信度和实用性。此外,该方法还可以用于增强虚拟现实和增强现实应用中的内容真实性,以及在艺术创作和设计中提供更精确的视觉参考。