探索水下图像增强的新前沿:基于图像条件扩散变换器的创新方法
摘要
本文介绍了一种基于图像条件扩散变换器(ICDT)的新型水下图像增强(UIE)方法。该方法利用退化的水下图像作为条件输入,通过将其转换到潜在空间并在其中应用ICDT,从而实现图像增强。ICDT通过替换传统去噪扩散概率模型(DDPM)中的U-Net主干为变换器,继承了变换器的可扩展性等优点。此外,通过引入混合损失函数,该方法在实现更好的对数似然的同时显著加速了采样过程。实验证明,ICDT-XL/2模型在Underwater ImageNet数据集上超越了所有比较方法,达到了最先进的(SOTA)图像增强质量。
原理
ICDT方法的核心在于使用变换器作为DDPM的主干,而不是传统的U-Net结构。这种架构允许模型在处理图像时具有更好的可扩展性和灵活性。具体来说,ICDT通过将退化的水下图像作为条件输入,并将其转换到潜在空间,然后在该空间中应用变换器进行处理。这种方法不仅提高了模型的计算效率,还通过引入学习到的方差,使得DDPM能够在更少的步骤中进行采样,而不会牺牲样本质量。这种混合架构的设计使得ICDT能够成为一个通用的图像到图像生成任务框架,如图像恢复、图像增强、图像转换、图像着色和图像超分辨率。
流程
ICDT的工作流程包括以下几个关键步骤:首先,将退化的水下图像通过变分自编码器(VAE)转换到潜在空间;接着,在潜在空间中应用DDPM,通过变换器块处理这些潜在表示;最后,通过VAE解码器将处理后的潜在表示转换回像素空间,得到增强的图像。在整个过程中,变换器块通过自注意力机制捕捉图像的全局依赖关系,而混合损失函数则确保了模型在训练过程中的稳定性和高效性。
应用
ICDT方法在水下图像增强领域展现出巨大的应用潜力。由于其高效的计算性能和优秀的图像增强效果,ICDT可以广泛应用于水下考古、水下机器人、海洋探测等多个领域。此外,ICDT作为一个通用的图像到图像生成框架,未来还可以扩展到其他图像处理任务中,如图像恢复和图像超分辨率等。
