"革新文本到图像生成:离散提示优化框架的突破"

On Discrete Prompt Optimization for Diffusion Models

摘要

本文介绍了一种基于梯度的框架,用于在文本到图像扩散模型中进行提示优化。文章将提示工程问题形式化为语言空间上的离散优化问题,并面临两大挑战:(1)巨大的领域空间:将领域设置为整个语言空间给优化过程带来了显著的困难。(2)文本梯度:有效计算文本梯度具有挑战性,因为它需要通过扩散模型的推理步骤和不可微的嵌入查找表进行反向传播。文章的主要技术贡献在于解决这些挑战,设计了一组动态生成的紧凑子空间,仅包含与用户输入最相关的单词,显著限制了领域空间。此外,引入了“快捷文本梯度”——一种有效的文本梯度替代方案,可以在恒定的内存和运行时间内获得。实证评估表明,该方法能够发现显著改善(提示增强)或破坏(对抗性攻击)文本到图像扩散模型生成图像忠实度的提示。

原理

文章提出的离散提示优化(DPO-Diff)框架的核心在于将提示工程问题转化为语言空间上的离散优化问题。通过设计动态生成的紧凑搜索空间和引入快捷文本梯度,文章有效地解决了计算文本梯度的难题。具体来说,快捷文本梯度通过绕过推理步骤的展开,实现了在恒定内存和运行时间内的梯度计算。此外,通过Gumbel Softmax技巧,将离散的单词选择连续放松为一个可学习的词汇上的平滑分布,从而允许通过离散嵌入查找表进行反向传播。

流程

DPO-Diff的工作流程包括以下几个关键步骤:

  1. 构建搜索空间:通过查询ChatGPT生成用户输入的单词替换字典,并初始化Gumbel参数。
  2. 梯度提示优化:在每个迭代步骤中,从Gumbel Softmax中采样每个单词的概率,计算混合嵌入,并计算文本梯度。更新Gumbel参数以优化提示。
  3. 进化采样:从Gumbel分布中生成初始种群,使用遗传算法找到最小化损失的种群,并选择最佳提示。

应用

DPO-Diff框架不仅适用于提示增强任务,还可以用于对抗性攻击任务,通过简单地反转目标函数的符号。此外,文章展示了优化负提示(通过反义词空间)比正提示(通过同义词空间)在扩散模型中更为有效。这些发现为文本到图像生成任务中的提示优化提供了新的视角和方法,具有广泛的应用前景,包括但不限于改进现有的文本到图像生成模型,以及为对抗性攻击提供新的研究方向。