"Domino效应:开启基础模型在未见域中的强大适应力"
摘要
本文探讨了基础模型(FMs)在计算机视觉中的零样本域适应潜力,特别是在面对域移(domain shift)问题时的表现。通过比较不同的骨干架构并引入新颖的域感知组件,本文提出了一种名为Domino的域自适应归一化方法,该方法在微调过程中显式利用域嵌入,从而使模型具备域感知能力。实验结果表明,Domino能够显著提升模型在未见域中的泛化能力,尤其是在结合真实和合成数据时。
原理
本文的核心创新在于提出了Domino方法,这是一种域自适应归一化技术,通过在微调过程中整合文本域嵌入来增强模型的域感知能力。具体来说,Domino利用CLIP模型自动提取域嵌入,并通过特定的归一化步骤将这些嵌入融入到模型的特征处理中,使得模型能够更好地理解和适应不同的域环境。此外,Domino还支持通过加法或减法操作来调整域嵌入的影响,从而实现域不变性学习,进一步提高模型的泛化性能。
流程
- 域嵌入提取:使用CLIP模型从图像中自动提取域相关的文本嵌入。
 - 域感知微调:在微调阶段,将提取的域嵌入通过Domino方法整合到模型中,具体操作包括加法和减法,以调整域信息的影响。
 - 模型评估:在Cityscapes和ACDC数据集上进行评估,使用mIoU作为性能指标,同时考虑域适应性能。
 - 合成数据整合:探索真实数据与合成数据的混合使用,以进一步提高模型的域泛化能力。
 
应用
Domino方法不仅适用于语义分割任务,还具有广泛的潜在应用,如自动驾驶、图像识别和视频分析等。通过提高模型对不同域环境的适应能力,Domino有望在多种复杂场景中实现更稳定和可靠的性能。此外,结合合成数据的使用,Domino还能帮助模型在数据稀缺或难以获取的情况下仍能保持高性能。
