GazeFusion:引领视觉注意力的创新图像生成技术

GazeFusion: Saliency-guided Image Generation

摘要

本文介绍了一种名为GazeFusion的新型人工智能框架,该框架利用显著性引导(saliency guidance)来生成图像,这些图像不仅符合文本描述,还能引导观众的注意力到特定的图像区域。GazeFusion通过结合低级图像特征(如颜色、对比度、频率和布局)和高级语义信息(如对象、文本和面部),实现了对视觉注意力的精确控制。该研究通过眼动追踪用户研究和大规模模型基础的显著性分析,验证了其方法的有效性,并展示了其在交互式设计、注意力抑制和适应不同显示/观看条件等多种应用中的潜力。

原理

GazeFusion的工作原理基于扩散模型(diffusion models),这是一种先进的图像生成技术。该模型通过一个控制模块(Control Module)和一个扩散模块(Diffusion Module)来生成图像。控制模块接收用户指定的显著性图(saliency maps)和文本提示(text prompts),然后调整扩散过程,使得生成的图像特征和语义内容能够触发与显著性图相符的观众注意力分布。扩散模块则负责从随机采样的噪声图像中逐步去噪,生成最终的图像。这种结合显著性引导的生成过程,使得GazeFusion能够灵活地操纵观众的注意力,同时保持图像的高质量和多样性。

流程

GazeFusion的工作流程包括以下几个步骤:

  1. 接收用户输入的文本提示和显著性图。
  2. 控制模块根据输入调整扩散过程。
  3. 扩散模块从噪声图像开始,逐步去噪生成图像。
  4. 图像解码器(Image Decoder)将生成的图像特征转换为最终的视觉输出。 例如,当用户输入文本提示“A bowl of green apples on a table”和一个特定的显著性图时,GazeFusion会生成一幅图像,其中不仅展示了碗中的绿苹果,还能确保观众的注意力被引导到显著性图指定的区域。

应用

GazeFusion的应用前景广泛,包括但不限于:

  • 交互式设计:帮助设计师创建与文本提示兼容的高质量显著性图,从而生成符合设计意图的图像。
  • 注意力抑制:在不需要的图像区域减少观众的注意力,或在重要区域增强注意力。
  • 显示适应性生成:根据不同的显示条件(如屏幕尺寸和观看距离),调整图像的显著性分布,以优化观众的视觉体验。 这些应用展示了GazeFusion在提升用户体验、广告设计和内容创作等领域的巨大潜力。