"小波转换器:自回归图像生成的新前沿"

Wavelets Are All You Need for Autoregressive Image Generation

摘要

本文介绍了一种基于小波图像编码和语言转换器的新型自回归图像生成方法。该方法通过小波图像编码将图像的视觉细节从粗到细进行标记化,并利用专门设计的语言转换器学习这些标记序列中的统计相关性。实验结果表明,该方法在生成高分辨率图像方面具有显著效果,并且能够通过条件生成过程实现多样化的图像输出。

原理

该方法的核心在于两个主要组成部分:首先是小波图像编码,它通过从小波系数的最重要的位开始排序信息,从粗到细地标记化图像的视觉细节。其次是专门设计的语言转换器,它被优化以适应这种“小波语言”的标记序列。转换器学习标记序列中的重要统计相关性,这些相关性反映了小波子带在不同分辨率之间的已知相关性。在推理过程中,转换器能够从最低分辨率的缩放函数系数分布中采样的初始随机种子生成视觉上有意义的图像。

流程

  1. 图像预处理:将图像转换为小波域,并从小波系数的最重要的位开始排序信息。
  2. 标记化:使用7个标记从小波表示中提取图像的视觉细节。
  3. 转换器训练:训练一个专门设计的语言转换器,以学习标记序列中的统计相关性。
  4. 图像生成:从初始随机种子开始,转换器生成标记序列,这些序列随后被解码为图像。
  5. 条件生成:通过在生成过程中加入类别隶属或文本提示的条件,生成多样化的图像。

例如,在MNIST数据集上,图像被填充为32×32大小,并使用Haar小波基进行处理。图像被标记化,并且转换器被训练以生成新的图像标记序列。

应用

该方法不仅限于灰度图像生成,还可以扩展到彩色图像和高分辨率图像的生成。此外,该方法还可以应用于多模态生成,即将小波标记与其他语言标记结合,创建统一的跨模态转换器。未来,该方法还可以支持复杂图像生成的组合,如通过边界框或椭圆标记的不同图像区域接收不同的文本描述。