探索AI创造力:图像生成器的流动性度量新视角

It"s a Feature, Not a Bug: Measuring Creative Fluidity in Image Generators

摘要

本文探讨了人工智能图像生成器中的“流动性”概念,即图像生成器对输入提示的解释灵活性。随着AI生成艺术的热潮,关于AI是否能展现人类创造力的讨论日益激烈。本文通过实验量化了图像生成器的“流动性”,即它们在生成图像时对初始提示的偏离程度。研究通过构建自动生成的提示和图像链,并使用视觉和语义指标测量这些链的断裂点,来评估不同图像生成器的流动性。这一新颖的度量方法为选择适合特定用途的图像生成模型提供了依据。

原理

本文提出的“流动性”度量是基于图像生成器输出与输入提示语义之间的相对偏离程度。通过构建一系列自动生成的图像和提示链,研究团队测量了这些链从初始“真实”图像和提示偏离的点,即“断裂点”。使用预先存在的视觉和语义指标来确定这些断裂点,并通过统计测试和视觉解释来分析这些链,以确定图像生成器是否显示出显著的流动性。这一方法的创新之处在于,它不仅关注图像生成器生成的图像与提示的忠实度,还关注其对提示的解释灵活性,从而更全面地评估了AI的创造性行为。

流程

研究团队首先从COCO数据集中选择了一个包含1000张图像的子集作为“真实”图像。然后,使用三种不同的提示生成模型(TextCaps, Blip, Llava)为每个“真实”图像生成提示。这些提示随后被输入到四种不同的图像生成模型(OpenDALLE, Kandinsky 2.2, Stable-Diffusion, SDXL-Turbo)中,生成一系列图像。通过计算每个链的断裂点,研究团队分析了这些链的长度和断裂点的分布。例如,一个使用Stable-Diffusion和Blip生成的链,其图像从最初的“卡车”主题迅速转向“道路和树木”的场景,显示了较高的流动性。相反,使用Kandinsky模型生成的链则保持了“卡车”主题,显示了较低的流动性。

应用

本文提出的“流动性”度量方法为图像生成器的评估提供了新的视角,特别是在AI创造性行为的评估方面。这一方法不仅可以帮助艺术家和设计师选择适合其创作需求的AI工具,还可以推动AI在艺术创作中的应用,促进人机协同创作的新模式。此外,这一研究也为AI的创造性行为提供了量化的分析工具,有助于深入理解AI与人类创造力的异同。