探索无监督域泛化的新前沿:Disentangled Masked AutoEncoder (DisMAE)
摘要
本文介绍了一种名为Disentangled Masked AutoEncoder (DisMAE)的新型学习框架,旨在解决无监督域泛化(UDG)问题。UDG旨在通过无监督方式学习跨多个域的表示,以便在未见过的域上进行测试。DisMAE的核心目标是发现能够忠实揭示数据内在特征和表面变化的解耦表示,而不需要访问类别标签。该框架通过解耦域不变语义特征和域特定变化(如颜色方案和纹理模式),以及通过不对称双分支架构和语义与轻量级变化编码器的共同训练,提供了动态数据操作和表示层增强的能力。实验结果表明,DisMAE在多个基准数据集上与最先进的域泛化和UDG基线相比,能够实现竞争性的OOD性能。
原理
DisMAE的工作原理基于两个核心原则:解耦原则和不变性原则。解耦原则意味着将表示分解为语义特征和变化两个组成部分。为了迫使语义表示捕获较少冗余信息并尽可能解耦变化,DisMAE通过将重建样本与其原始语义和变化更接近,并将具有不同域内变化的重建样本推开来实现。不变性原则意味着语义表示在各种域变化中保持不变,因此它们的域类别是不可区分的。DisMAE策略包括四个模块:基于transformer的语义编码器、轻量级变化编码器、基于transformer的解码器和一个域标签增强的不变性分类器。通过这两个原则的联合训练,DisMAE能够解耦域不变语义特征和域特定变化,并通过潜在空间增强进一步增强模型的能力。
流程
DisMAE的工作流程包括以下步骤:
- 使用多域重建任务的训练集Dtrain = {(xi, di)}N i=1,其中xi是输入图像,di是相应的域类别。
 - 开发一个不对称双分支架构,主分支将输入图像映射到语义特征空间(语义编码器ϕs(·)),轻量级分支提取输入样本的变化属性(变化编码器ϕv(·))。
 - 使用基于transformer的编码器来增强域不变语义和域特定变化作为表示。
 - 使用基于transformer的解码器进行重建,解码器仅在训练期间用于重建。
 - 通过重建学习和自适应对比损失来优化编码器和解码器。
 - 在推理阶段,仅使用域不变语义表示s0 x进行预测,以保护其免受域变化的影响。
 
应用
DisMAE的关键内容具有广泛的应用前景,特别是在需要跨域泛化的场景中,如图像识别、风格迁移和数据增强。由于其能够解耦域不变特征和域特定变化,DisMAE可以应用于任何需要从源域到目标域泛化的任务,尤其是在缺乏标签数据的情况下。此外,DisMAE的动态数据操作和表示层增强能力使其在处理复杂和多样化的数据集时具有优势。
