探索Mamba架构在行人属性识别中的应用:一种高效且先进的识别框架

An Empirical Study of Mamba-based Pedestrian Attribute Recognition

摘要

本文针对行人属性识别(PAR)任务,提出了一种基于Mamba架构的新型识别框架。传统的基于Transformer的模型在计算上较为沉重,而近期提出的具有线性复杂度的Mamba模型在多种视觉任务中展现了良好的准确性与计算成本平衡。本文通过设计并适应Mamba到两种典型的PAR框架中,即文本-图像融合方法和纯视觉Mamba多标签识别框架,验证了Mamba在PAR任务中的有效性。实验结果表明,尽管与属性标签的交互并不总是带来性能提升,但Mamba模型在特定设置下能够超越传统的Transformer模型,为行人属性识别领域提供了新的研究方向。

原理

Mamba模型通过其线性复杂度的状态空间模型(SSM)来处理序列数据,这种模型能够有效地捕捉长距离依赖关系,同时保持较低的计算成本。在行人属性识别任务中,Mamba模型首先将行人图像分割成多个图像块,并通过线性投影将其转换为视觉特征。随后,这些特征通过一系列Mamba块进行处理,每个块包含归一化层、投影层和激活层,用于增强特征并捕捉图像中的复杂关系。此外,Mamba模型还引入了视觉-语义融合模块,该模块通过整合视觉和文本特征,进一步提升了属性识别的准确性。

流程

本文提出的Mamba-based行人属性识别框架包括三个主要模块:Mamba视觉骨干网络、基于Mamba的文本编码器和视觉-语义融合(VSF)Mamba模块。首先,行人图像通过Mamba视觉骨干网络被编码为视觉特征。同时,属性标签通过预训练的BERT tokenizer被嵌入为语义特征。随后,这些视觉和语义特征被输入到VSF Mamba模块中进行交互和融合。最后,通过一个分类头进行行人属性识别。整个流程通过广泛的数据集实验进行了验证,确保了模型的有效性和效率。

应用

基于Mamba的行人属性识别框架不仅在传统的行人属性识别任务中展现了优越的性能,还为多标签识别领域提供了新的研究思路。随着模型的进一步优化和适应,预计该框架将在智能监控、人机交互和个性化推荐系统等多个领域发挥重要作用。此外,Mamba模型的线性复杂度特性使其在资源受限的环境中具有广泛的应用潜力。