创新不对称多模态融合方法:高效皮肤病变分类的新突破
摘要
本文介绍了一种新颖的不对称多模态融合方法,用于高效的多标签皮肤病变分类。在临床诊断中,通常会同时采集临床图像和皮肤镜图像,但皮肤镜图像对于多标签皮肤病变分类更为关键。现有的多模态方法主要通过先进的融合模块来提高分类性能,但往往忽略了参数数量的增加。本文提出的方法包括两个创新方案:首先,验证了不对称融合结构的有效性,该结构使用轻量级网络处理临床图像,而使用更复杂的网络处理皮肤镜图像,从而显著减少了参数数量。其次,提出了一种不对称注意力模块,该模块仅利用临床图像信息来增强皮肤镜图像特征,将临床图像视为补充信息。实验结果表明,该方法在七个点检查表数据集上表现出色,优于现有方法,并且将公开代码。
原理
本文提出的不对称多模态融合方法(AMMFM)的核心在于其不对称融合框架(AFF)和不对称注意力块(AAB)。AFF通过使用不同的模型来处理两种模态的图像:一个轻量级模型(如MobilenetV3)用于临床图像,一个更高级的模型(如ResNet、ConvNext或SwinTransformer)用于皮肤镜图像。这种设计减少了模型参数,同时保持了分类性能。AAB则是一种单向的注意力机制,仅利用临床图像的特征来增强皮肤镜图像的特征,避免了双向注意力机制中可能出现的过度拟合问题。
流程
AMMFM的工作流程包括四个主要组件:不对称融合框架(AFF)、不对称注意力块(AAB)、全连接层(FCL)和加权平均(WA)操作。AFF和AAB用于从两种模态中提取信息并促进模态间的交互。FCL用于分类提取的特征,WA用于融合来自临床、皮肤镜和融合分支的预测,生成最终的预测。例如,在处理临床图像和皮肤镜图像时,AFF首先使用轻量级模型提取临床图像特征,使用高级模型提取皮肤镜图像特征。然后,AAB利用临床图像特征生成注意力图,以增强皮肤镜图像特征。最后,通过FCL和WA操作生成最终的分类结果。
应用
AMMFM方法在皮肤病变分类领域具有广泛的应用前景。由于其高效的参数使用和优越的分类性能,该方法特别适合于资源受限的临床环境,如农村地区或远程诊断场景。此外,该方法的模块化设计使其易于集成到现有的医疗诊断系统中,有望提高皮肤病变诊断的准确性和效率。
