探索文本到图像生成中的事实性与多样性平衡:DoFaiR基准与FAI方法

The Factuality Tax of Diversity-Intervened Text-to-Image Generation: Benchmark and Fact-Augmented Intervention

摘要

本文探讨了在文本到图像(T2I)生成模型中使用多样性干预措施时,如何保持历史人物的种族和性别分布的真实性。文章提出了DemOgraphic FActualIty Representation(DoFaiR)基准,用于评估多样性干预与保持历史真实性之间的权衡。研究发现,尽管多样性干预增加了图像中不同性别和种族群体的数量,但同时也导致了历史人口分布的不准确。为了解决这一问题,文章提出了Fact-Augmented Intervention(FAI)方法,该方法通过引导大型语言模型(LLM)反思和整合历史事实信息,从而在保持多样性的同时提高生成图像的真实性。

原理

DoFaiR基准通过精心核实的756个测试实例,利用自动化证据支持的评估流程,揭示了多样性提示对事实性的影响。FAI方法通过两种方式增强事实性:一是利用LLM提取的口头事实知识(FAI-VK),二是从维基百科等可靠来源检索的事实知识(FAI-RK)。这两种方法都旨在通过在生成过程中融入历史真实信息,指导T2I模型生成更符合历史事实的图像。

流程

DoFaiR的工作流程首先提示模型生成包含历史事件中代表性参与者的图像,然后通过自动化流程获取生成图像中的人口分布,最后将生成的人口分布与真实分布进行对比,评估生成图像的事实性水平。FAI方法的工作流程则是在多样性干预提示的基础上,通过LLM或维基百科检索相关历史事实信息,并将这些信息整合到生成指令中,以指导模型生成更符合历史事实的图像。

应用

FAI方法不仅在学术研究中具有重要价值,还为未来评估和减轻多样性干预带来的事实性“税”提供了宝贵的资源。该方法的应用前景广泛,特别是在需要准确反映历史人物种族和性别分布的领域,如教育、历史研究和公共宣传等。