探索无需标签的神经语义图像合成:创新方法与应用前景
摘要
本文介绍了一种无需人工标注的神经语义图像合成方法,该方法通过从预训练的基础模型中提取神经布局作为条件,实现了对扩散模型的细粒度空间控制。与传统使用手工制作的语义模糊条件(如边缘)或需要昂贵手动标注的条件(如语义分割)不同,本文提出的方法能够生成与真实图像在像素级别上对齐的图像,同时更好地捕捉场景的语义和几何信息。此外,生成的图像能够有效地增强真实数据,用于训练各种感知任务。
原理
本文提出的神经语义图像合成方法的核心在于使用从大型预训练基础模型(FMs)中提取的密集神经特征作为条件输入。这些特征不仅保留了图像的语义内容和几何结构,而且通过主成分分析(PCA)分解去除了不必要的外观变化,从而确保了合成图像的多样性。具体来说,神经布局是通过从参考图像中提取的密集特征经过PCA处理后得到的,这些特征能够提供丰富的场景描述,包括语义和详细的几何信息,而无需任何像素级别的标注。
流程
本文提出的LUMEN模型基于ControlNet框架,使用从图像的Stable Diffusion特征中提取的神经布局作为条件输入。工作流程包括以下步骤:首先,从参考图像中提取密集特征;然后,通过PCA分解去除不必要的信息,保留主要的语义和空间特征;最后,将这些处理后的特征作为条件输入到扩散模型中,生成与参考图像在语义和空间上对齐的新图像。例如,通过这种方式,模型能够生成与参考图像在语义布局上高度对齐的图像,即使与使用昂贵的真实语义标签地图生成的图像相比,也能达到相似或更好的效果。
应用
本文提出的方法不仅适用于图像合成,还可以用于图像编辑和内容创建,如生成具有不同艺术风格的图像或通过组合不同图像的布局来创建新场景。此外,这种方法在数据增强方面具有广泛的应用前景,特别是在需要大量多样化训练数据的下游感知任务中,如2D/3D物体检测、姿态估计和语义分割等。通过提供既忠实于语义和空间细节又具有外观多样性的合成图像,该方法能够显著提升这些任务的性能。
