MTMamba:革新多任务场景理解的新型Mamba架构
摘要
本文介绍了一种名为MTMamba的新型多任务密集场景理解架构,该架构基于Mamba解码器,旨在提高多任务学习中的长距离依赖建模和任务间交互。MTMamba包含两种核心模块:自我任务Mamba(STM)和跨任务Mamba(CTM)。STM通过利用Mamba处理长距离依赖,而CTM则明确建模任务间的交互,促进任务间的信息交换。实验结果表明,MTMamba在NYUDv2和PASCAL-Context数据集上的表现优于基于Transformer和CNN的方法,特别是在PASCAL-Context数据集上,MTMamba在语义分割、人体解析和对象边界检测任务中分别比之前的最佳方法提高了+2.08、+5.01和+4.90。
原理
MTMamba的工作原理基于其独特的Mamba解码器架构,该架构包含STM和CTM两种核心模块。STM模块通过Mamba机制有效捕捉全局上下文信息,而CTM模块则设计用于通过知识交换增强每个任务的特征。这两种模块的协作不仅增强了任务间的交互,还有效地处理了长距离依赖问题。Mamba机制源自状态空间模型(SSMs),通过输入依赖的选择机制(S6)实现线性序列长度缩放,显示出在各种基准上的优越性能。
流程
MTMamba的工作流程包括三个主要组件:一个现成的编码器、一个基于Mamba的解码器和任务特定的头部。编码器负责从输入图像中提取多尺度通用视觉表示,解码器则通过三个阶段处理这些表示,每个阶段包含任务特定的STM块和共享的CTM块。最终,每个任务通过其输出头部生成最终预测。例如,在PASCAL-Context数据集上,MTMamba通过其精细的工作流程,能够生成比现有Transformer方法更精确的预测结果。
应用
MTMamba的关键内容具有广泛的应用前景,特别是在需要同时处理多个密集预测任务的场景中,如自动驾驶、医疗保健和机器人技术。其优越的性能和高效的架构设计使其成为多任务密集场景理解领域的强大工具,预计将在未来的计算机视觉应用中发挥重要作用。
