“Layout-and-Retouch”:开创个性化图像生成的新纪元
摘要
本文介绍了一种名为“Layout-and-Retouch”的双阶段框架,旨在改善个性化图像生成的多样性。该方法针对个性化文本到图像(P-T2I)生成中的关键挑战——如何在保持身份特征的同时提高提示的忠实度。文章提出的解决方案包括两个主要阶段:布局生成和润饰。在第一阶段,通过步融合推理利用基础T2I模型的固有样本多样性生成多样化的布局图像,同时增强提示忠实度。第二阶段通过多源注意力交换,将第一阶段的上下文图像与参考图像结合,利用上下文图像的结构和参考图像的视觉特征,实现高提示忠实度和身份特征的保留。实验证明,该方法能够在保持个性化对象独特身份特征的同时,生成多样化的图像布局,甚至在面对挑战性的文本提示时也能表现出色。
原理
“Layout-and-Retouch”框架的核心在于其双阶段生成过程。第一阶段,布局生成,主要关注提高提示忠实度,而不考虑身份保留。通过设计一种步融合去噪方法,利用基础T2I生成模型的多样表达能力,生成一个布局图像,该图像在视觉上类似于目标对象,占据图像中的特定位置,其余区域则根据提供的文本提示进行排列。第二阶段,润饰阶段,目标是在保留布局图像背景上下文的同时,精确校准目标对象。通过提出多源注意力交换技术,该技术同时从布局图像和参考图像中捕获上下文和详细的视觉外观。注意力交换技术的原理是通过替换目标去噪步骤中的查询、键和值,从参考视觉特征中传递信息,如对象外观和风格。
流程
布局生成阶段:
- 使用基础Stable Diffusion模型生成初始布局图像。
 - 通过步融合去噪方法,结合基础模型和个性化模型的去噪网络,生成多样化的布局图像。
 - 生成的布局图像提供结构指导,用于下一阶段的润饰。
 
润饰阶段:
- 使用多源注意力交换技术,将布局图像和参考图像的中间变量传递到目标图像的去噪步骤中。
 - 通过自适应掩码混合技术,结合布局图像和目标图像的特征图,生成最终的个性化图像。
 
具体示例:
- 在布局生成阶段,模型可能会生成一个包含特定对象(如红色茶壶)的多样化布局图像,背景和对象位置根据文本提示(如“在花园中的砖路上”)进行排列。
 - 在润饰阶段,模型会调整红色茶壶的外观,使其更接近参考图像中的细节,同时保持布局图像的背景和结构。
 
应用
“Layout-and-Retouch”框架的应用前景广泛,特别适用于需要高度个性化和多样化图像生成的领域,如数字艺术创作、个性化广告设计、虚拟现实内容生成等。该方法的灵活性和高效性使其能够处理复杂的文本提示,生成符合要求的多样化图像,从而在多个行业中发挥重要作用。
