探索多模态开放集域泛化与适应:MOOSA方法的突破与应用

Towards Multimodal Open-Set Domain Generalization and Adaptation through Self-supervision

摘要

本文探讨了多模态开放集域泛化和适应问题,这是一个在未见过的域中识别新类别的挑战性任务,特别是在输入为多种模态的情况下。现有研究主要集中在单模态开放集域泛化上,而本文首次引入了一种新颖的方法来解决多模态开放集域泛化(MMOSDG)问题,利用自监督学习。文章提出了两种创新的多模态自监督前置任务:掩蔽跨模态转换和多模态拼图游戏,这些任务有助于学习多模态代表性特征,从而增强泛化和开放类别检测能力。此外,文章还提出了一种新的熵加权机制来平衡不同模态之间的损失。通过在EPIC-Kitchens和HAC数据集上的广泛实验,证明了所提方法的有效性和多功能性。

原理

本文提出的方法MOOSA通过两种互补的多模态自监督前置任务来解决MMOSDG问题:掩蔽跨模态转换(Masked Cross-modal Translation)和多模态拼图游戏(Multimodal Jigsaw Puzzles)。掩蔽跨模态转换任务通过随机掩蔽一部分模态特征并尝试从剩余特征中恢复完整特征,促使模型学习模态间的内在数据分布,从而增强对已知类别的特征表示,提高已知与未知样本之间的区分度。多模态拼图游戏任务则通过在嵌入空间中随机打乱不同模态的特征片段,并要求模型恢复其原始顺序,以此学习跨模态的特征表示,增强模型的泛化能力。这两种任务通过一个熵加权机制结合,该机制根据每个模态预测的熵来动态调整其在总损失中的权重,确保不同模态的贡献得到平衡。

流程

MOOSA的工作流程包括以下几个关键步骤:首先,通过特征提取器从每个模态中提取特征嵌入;然后,这些嵌入被用于执行掩蔽跨模态转换和多模态拼图游戏任务。在掩蔽跨模态转换任务中,部分模态特征被随机掩蔽,模型需要预测这些被掩蔽的部分。在多模态拼图游戏任务中,模态特征被分割并随机打乱,模型需要重新排列这些片段以恢复原始顺序。最后,通过熵加权机制计算每个模态的损失权重,并结合所有任务的损失进行优化。在推理阶段,模型使用最终的预测结果,并通过一个阈值来识别未知类别。

应用

MOOSA方法在多模态开放集域泛化和适应问题上有广泛的应用前景,特别是在需要处理多种输入模态(如视频、音频和文本)的复杂系统中,例如自动驾驶、智能监控和交互式机器人。该方法能够提高模型在未见过的环境和条件下的适应性和鲁棒性,对于推动人工智能技术在实际应用中的部署具有重要意义。