探索文本到图像生成模型的质量、偏见与性能:一项综合分析
摘要
本文探讨了文本到图像生成模型中的质量、偏见和性能问题。尽管这些模型能够生成高质量的图像,但它们往往存在性别或社会偏见。研究不仅通过定性评估模型生成准确图像的能力,还通过社会偏见分析来全面理解这些模型的影响和局限性。研究发现,容量较大的模型能生成更高质量的图像,但同时也揭示了这些模型固有的偏见问题。
原理
本文通过定量分析2023年最先进的文本到图像模型,特别是它们生成具有复杂面部和运动属性的图像的能力。此外,研究还探索了这些模型中固有的性别和种族偏见,特别是在中性提示下的表现。通过使用附录A.2和A.3中讨论的工具(类似于Bias-Bench),研究强调了生成图像中潜在的偏见及其对现实应用的影响。这些分析工具通过比较真实图像和合成图像的特征分布,使用Fréchet Inception Distance (FID) 分数来量化图像质量,同时使用R-Precision分数评估图像与文本提示的匹配度。
流程
研究首先定义了一个包含真实图像及其文本描述的数据集,以及一组文本到图像模型。每个模型根据文本提示生成合成图像,然后使用质量评分函数(如FID分数)和熟练度评分函数(如R-Precision分数)来评估这些合成图像与真实图像的相似度。数据提取阶段,研究从COCO和Flickr30k数据集中筛选出人脸和运动相关的图像及其描述。定量分析阶段,使用FID和R-Precision分数来评估模型性能。定性分析阶段,设计了一系列测试偏见的提示,通过人类评估者对生成的图像进行分类,以评估模型在性别和种族偏见方面的表现。
应用
本文的研究结果强调了在敏感领域实施合成数据生成模型之前,需要对其进行仔细评估。这些模型在图像生成、音频生成和文本生成等领域具有广泛的应用前景,特别是在需要克服静态数据集局限性的场景中。然而,模型中存在的偏见问题需要在实际应用中得到解决,以确保模型的有效性和道德性。
