MARS:引领文本到图像人物搜索的新纪元

MARS: Paying more attention to visual attributes for text-based person search

摘要

本文介绍了一种名为MARS(Mae-Attribute-Relation-Sensitive)的新型文本到图像人物搜索(TBPS)架构,该架构通过引入视觉重建损失和属性损失来增强现有最先进模型的性能。TBPS任务是根据文本描述检索特定个体的图像,面临的主要挑战包括身份间噪声(文本描述的模糊性和不精确性)和身份内变化(如姿态、光照等)。MARS通过使用掩码自编码器(MAE)重建随机掩码的图像块,并结合文本描述,鼓励模型学习更具表达性的表示和文本-视觉关系。属性损失则确保每个属性在人物检索过程中得到平衡考虑。实验结果表明,MARS在三个常用数据集上显著提高了平均精度(mAP)指标,展现了其在文本到图像人物搜索领域的先进性。

原理

MARS架构的核心在于其四个主要组件:图像编码器、文本编码器、交叉模态编码器和掩码自编码器。图像编码器和文本编码器分别提取图像和文本的潜在代码,交叉模态编码器通过额外的交叉注意力层融合这些嵌入,而掩码自编码器则通过文本信息帮助重建图像块。视觉重建损失通过MAE训练模型重建掩码图像块,增强了文本-视觉关系的表达。属性损失则通过平衡不同类型属性的贡献,确保每个属性在检索过程中得到适当关注。这些创新机制共同作用,使得MARS能够更精确地匹配文本描述与图像内容。

流程

MARS的工作流程包括以下步骤:首先,输入的图像和文本分别通过图像编码器和文本编码器进行处理,生成各自的嵌入表示。接着,掩码自编码器接收掩码后的图像嵌入和文本嵌入,通过交叉注意力机制重建原始图像。最后,交叉模态编码器结合图像和文本嵌入,通过属性损失和视觉重建损失进行训练,优化模型性能。在评估阶段,模型根据文本嵌入检索最相似的图像嵌入,并通过交叉模态编码器的匹配结果进行重新排序,以进一步提高检索准确性。

应用

MARS在文本到图像人物搜索领域具有广泛的应用前景,特别是在需要高度精确匹配的场景中,如安全监控、社交媒体内容分析和电子商务推荐系统。其能够处理文本描述的模糊性和图像变化,提供更准确的检索结果,有望在多个行业中推动相关技术的进步和应用。