BaTex:高效个性化文本到图像生成的新方法
摘要
本文介绍了一种名为BaTex的新型个性化文本到图像生成方法,该方法通过利用文本子空间来提高生成图像的个性化程度和效率。传统的文本到图像生成方法主要关注图像重建任务的性能,导致难以与不同的文本提示灵活结合。此外,在高维嵌入空间中进行优化通常会导致不必要的耗时训练过程和缓慢的收敛。为了解决这些问题,BaTex方法通过在文本子空间中探索目标嵌入,利用自表达性属性,并提出了一种有效的选择策略来确定文本子空间的基向量。实验结果表明,BaTex不仅能够忠实地重建输入图像,还能显著提高与新输入文本提示的对齐度,并且对初始词的鲁棒性有所提高,使用户无需输入最相关的初始词。BaTex方法为个性化文本到图像生成的高效表示学习打开了新的大门。
原理
BaTex方法的核心在于通过在低维文本子空间中进行优化,从而提高个性化文本到图像生成的效率和质量。该方法首先从预训练的文本到图像模型提供的词汇表V中选择一组预训练嵌入{v1, v2, …, vM},这些嵌入通过自表达性属性可以重建任何目标嵌入v。通过这些嵌入,BaTex构建了一个子空间S = span(v1, v2, …, vM),并在该子空间中进行高效的优化。具体来说,BaTex引入了一种基于排名的选择策略,该策略使用最近邻算法从词汇表中选择与输入概念语义上接近的嵌入{v1, v2, …, vM},使得通过BaTex方法学习的嵌入自然地与其他文本结合。与传统的Textual Inversion方法相比,BaTex不需要在整个高维嵌入空间中搜索解决方案,因此可以提高训练效率并加速收敛。
流程
BaTex的工作流程包括以下几个步骤:
- 选择嵌入:从词汇表V中选择一组语义相关的嵌入{v1, v2, …, vM},这些嵌入将用于构建文本子空间S。
 - 构建子空间:通过选择的嵌入{v1, v2, …, vM}构建一个低维文本子空间S = span(v1, v2, …, vM)。
 - 优化嵌入:在构建的文本子空间S中进行优化,以学习目标嵌入v。
 - 生成图像:使用学习到的嵌入v与输入文本提示结合,通过预训练的扩散网络生成目标图像。
 
具体示例:
- 输入:一组参考图像和一个文本提示,例如“一只站在街上的狗,一个男人拿着机关枪,风格为[风格名称]”。
 - 输出:根据输入的文本提示和参考图像生成的个性化图像。
 
通过这种方式,BaTex能够在保持图像重建能力的同时,显著提高与新文本提示的对齐度。
应用
BaTex方法的应用前景广泛,特别是在个性化图像生成领域。由于其高效的训练过程和优秀的文本对齐能力,BaTex可以应用于各种需要个性化图像生成的场景,如文本引导的合成、风格迁移、对象组合等。此外,BaTex的鲁棒性使其能够适应不同的初始词,这为实际应用中的用户提供了更大的灵活性。随着进一步的研究和开发,BaTex有望与更先进的大规模文本到图像模型结合,推动个性化图像生成技术的发展。
