"SAVE模型:革新音频-视觉分割的轻量级解决方案"

SAVE: Segment Audio-Visual Easy way using Segment Anything Model

摘要

本文介绍了一种名为SAVE的轻量级音频-视觉分割(AVS)模型,该模型通过适应预训练的Segment Anything Model(SAM)来高效地识别和定位视觉场景中的听觉元素。SAVE模型通过引入图像编码器适配器和残差音频编码器适配器,实现了音频-视觉特征的有效融合和交互。该方法在保持输入分辨率降低至256像素的同时,显著提高了训练和推理速度,并在多个基准测试中超越了现有的最先进方法。SAVE模型的应用前景广泛,特别是在需要精确分割的视频监控、多模态视频编辑和机器人技术等领域。

原理

SAVE模型的核心创新在于其图像编码器适配器和残差音频编码器适配器的设计。图像编码器适配器通过在每个变换器块中添加适配层,有效地将特定于数据集的知识注入到图像编码器中,增强了通道和空间维度的特征融合。残差音频编码器适配器则通过多层感知机(MLP)和残差连接,将音频特征转换并注入到变换器块中,最终输出作为SAM掩码解码器的稀疏提示。这种设计不仅保留了音频特征的信息,还通过稀疏提示机制增强了音频-视觉特征的交互,从而提高了分割的准确性和效率。

流程

SAVE模型的工作流程包括以下几个关键步骤:

  1. 输入图像和音频信号分别通过冻结的图像编码器和音频编码器进行初步处理。
  2. 在图像编码器的每个变换器块中插入图像编码器适配器,以增强特定数据集的知识转移。
  3. 音频特征通过残差音频编码器适配器进行处理,生成稀疏提示。
  4. 稀疏提示与图像特征结合,输入到SAM的掩码解码器中,生成最终的分割掩码。 例如,在处理包含猫和枪的视频帧时,SAVE模型能够准确地分割出猫的身体和枪的部件,而不会混淆或遗漏任何部分。

应用

SAVE模型在音频-视觉分割领域的应用前景广泛,特别是在需要高精度分割的场景中,如视频监控、多模态视频编辑、机器人视觉导航等。其高效的训练和推理速度,以及在低分辨率输入下的高性能表现,使其成为这些应用领域的理想选择。此外,SAVE模型在处理复杂场景和多目标分割时表现出色,进一步扩展了其应用范围。