Banquet系统:革新音乐源分离的单一解码器解决方案

A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems

摘要

本文介绍了一种名为Banquet的先进音乐源分离系统,该系统能够通过单一解码器实现超过传统四音轨(VDBO)设置的音乐源分离。传统的音乐源分离系统通常依赖于固定的解码器设置,支持的音轨数量有限且计算复杂度高,难以扩展到长尾乐器。Banquet系统通过引入基于查询的设置,结合音乐乐器识别模型PaSST,实现了对任意数量音轨的分离,且在MoisesDB数据集上的表现接近甚至超越了复杂的六音轨混合变换器模型。此外,该系统还能有效分离如吉他和钢琴等细分类乐器,展示了其在音乐源分离领域的广泛应用前景。

原理

Banquet系统的工作原理基于单一编码器和单一解码器的架构,通过输入混合信号和查询信号,利用复值时频掩码提取与查询信号相同类型的音轨估计。系统首先将混合信号编码为子带级别的时间变化嵌入张量,然后将查询信号编码为单一向量表示,通过条件化混合嵌入,生成特定音轨的嵌入,最后解码该嵌入张量以生成时频掩码,用于获取源估计。这一过程通过共享的单一解码器实现,显著降低了系统的复杂性和计算需求,同时保持了高效的分离性能。

流程

Banquet系统的工作流程包括以下几个关键步骤:

  1. 编码阶段:将输入的混合音频信号通过短时傅里叶变换(STFT)转换为频域表示,并分割成多个重叠的子带,每个子带通过层归一化和仿射变换处理,最终堆叠成一个三维张量。
  2. 查询编码:使用预训练的PaSST模型对查询信号进行编码,生成时间序列嵌入,该嵌入随后被时间平均并线性下投影,以获得查询向量。
  3. 查询基于的适应:通过单一的FiLM层将混合嵌入转换为特定音轨的嵌入,这一过程中,调节变量γ和β是从查询向量通过两层非线性仿射映射得到的。
  4. 解码阶段:将条件化的嵌入张量通过层归一化和门控线性单元(GLU)处理,转换为复值张量,然后通过频域重叠加法生成全频带掩码,最终通过元素级掩蔽获得源估计。

应用

Banquet系统不仅在传统的四音轨分离任务中表现出色,还能有效处理如吉他、钢琴等细分类乐器的分离,甚至能够提取如簧片和风琴等不常见音轨。这表明Banquet系统在音乐制作、音频分析和多媒体内容生成等领域具有广泛的应用潜力。随着技术的进一步发展和优化,Banquet有望成为音乐源分离领域的标杆系统。