ElasticAST:革命性的音频频谱图变换器,适应任意长度和分辨率

ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions

摘要

本文介绍了一种名为ElasticAST的新型音频频谱图变换器(AST),它能够处理任意长度和分辨率的音频输入。传统的AST模型在处理不同长度的音频输入时性能会下降,而ElasticAST通过采用序列打包技术,使得模型在训练和推理阶段都能适应不同长度的音频输入。这种方法不仅提高了模型的灵活性,还保持了与固定长度训练的AST模型相似的性能。实验结果表明,ElasticAST在处理原生长度音频数据集时表现更优,且能够有效利用音频的全部语义内容,无需剪切或填充。

原理

ElasticAST的核心创新在于其能够处理变长音频输入的能力。传统的AST模型需要固定大小的输入,这通常通过剪切或填充音频来实现,这种方法会导致信息丢失或污染。ElasticAST通过引入序列打包技术,允许在训练过程中使用不同长度的音频输入,从而在推理阶段能够处理任意长度的音频。此外,ElasticAST还采用了掩蔽自注意力机制和掩蔽注意力池化层,这些机制确保了模型在处理混合长度输入时,每个样本的注意力仅限于其自身的标记,避免了不同样本之间的交叉注意力干扰。

流程

ElasticAST的工作流程包括以下几个关键步骤:首先,音频输入被转换为频谱图,并分割成小块(patches)。然后,这些patches通过线性投影层转换为嵌入向量,并添加位置编码。接下来,这些嵌入向量被序列打包技术组织成不同长度的序列,每个序列可能包含来自不同样本的标记。为了处理这些序列,模型引入了掩蔽自注意力机制,确保每个样本的标记只关注其自身的标记。最后,通过掩蔽注意力池化层提取每个样本的表示,这些表示随后被送入线性分类器进行分类。

应用

ElasticAST的灵活性使其在多种音频处理任务中具有广泛的应用前景,特别是在需要处理不同长度音频数据的自监督学习和多模态学习场景中。此外,ElasticAST的单模型适应性意味着它可以在不同的计算预算下无缝工作,无需为每个特定场景重新训练模型。这种适应性使得ElasticAST在音频分类、音频-视觉对齐、检索和生成等任务中具有重要的应用价值。