"Domino效应:引领基础模型在未见域的泛化革命"

Domain-Aware Fine-Tuning of Foundation Models

摘要

本文探讨了基础模型(FMs)在计算机视觉中的零样本域适应潜力,特别是在面对域移(domain shift)时模型的性能问题。通过比较不同的骨干架构并引入新颖的域感知组件,本文提出了一种名为Domino的域适应归一化方法,该方法在微调过程中显式利用域嵌入,使模型具有域感知能力。实验结果表明,Domino能够显著提升模型在未见域上的泛化能力,特别是在结合多样化的合成数据时。

原理

Domino方法的核心在于利用CLIP自动提取域嵌入,并通过域适应归一化将这些嵌入整合到模型的微调过程中。具体来说,CLIP用于从图像中提取域相关的文本嵌入,这些嵌入随后通过Domino方法被用于调整模型的归一化过程,使得模型能够更好地适应不同的域。此外,Domino还支持域嵌入的加法和减法操作,分别用于增强域特定信息和促进域不变学习,从而进一步提升模型的泛化性能。

流程

  1. 使用CLIP从输入图像中自动提取域嵌入。
  2. 将提取的域嵌入通过Domino方法整合到Stable Diffusion模型的微调过程中。
  3. 在微调过程中,可以选择添加或减去域嵌入,以优化模型在特定任务上的表现。
  4. 结合真实数据和合成数据进行训练,以进一步提高模型在未见域上的泛化能力。 例如,在城市景观数据集上训练的模型,通过Domino方法微调后,能够在恶劣天气条件下(如雨天)成功检测到行人,避免事故发生。

应用

Domino方法的应用前景广泛,特别是在需要模型在多种不同环境下都能保持高性能的场景,如自动驾驶、智能监控和跨域图像识别等。通过提升模型在未见域上的适应能力,Domino有助于推动这些领域的技术进步,减少因域移带来的性能下降问题。