"MVSD:基于扩散模型的互学习框架,革新声学匹配与去混响技术"

Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion

摘要

本文介绍了一种基于扩散模型的互学习框架MVSD,用于声学匹配和去混响任务。传统的声学匹配和去混响方法通常独立处理每个任务,且依赖于配对训练数据,这在实际应用中难以获取,限制了大量未配对数据的使用。MVSD框架通过考虑两个任务之间的内在互惠关系,利用对称任务之间的反馈信号,即使在易于获取的单向未配对数据上也能优化逆向任务。此外,MVSD采用扩散模型作为基础条件转换器,避免了传统GAN架构中的训练不稳定和过度平滑问题。实验结果表明,该框架在两个标准基准测试中提高了声学匹配和去混响任务的性能,并能更好地匹配特定的视觉场景。

原理

MVSD框架的核心在于利用声学匹配(VAM)和去混响任务之间的内在互惠关系。该框架包含两个转换器:一个是用于VAM的混响器,另一个是用于去混响的去混响器。去混响器评估由混响器生成的混响音频是否听起来像在条件视觉场景中,反之亦然。通过形成一个闭环,这两个转换器可以生成信息反馈信号,优化逆向任务,即使在易于获取的单向未配对数据上也能进行。扩散模型作为基础条件转换器,通过逐步添加噪声到输入频谱图,然后通过迭代去噪过程恢复原始频谱图,从而实现稳定训练和精确的混响风格转换。

流程

MVSD的工作流程包括两个主要步骤:首先,混响器根据视觉场景v和无混响音频ac生成混响音频ˆar。然后,去混响器将ˆar作为输入,在去混响任务中重建无混响音频˜ac。最后,˜ac和ac之间的误差作为反馈信号,优化混响器fθ,反之亦然。训练过程中,混响器fθ和去混响器gϕ可以形成一个闭环,提供逆向任务的反馈,增强数据效率。当去混响器遇到带有混响的自然音频a′r时,它首先消除混响因素,创建一个伪无混响音频ˆa′c。同样,混响器根据ˆa′c和视觉观察v′再生˜a′r。因此,MVSD允许这两个转换器从彼此的训练实例中受益,并可以扩展到易于获取的未配对音频样本。

应用

MVSD框架在增强现实(AR)和虚拟现实(VR)中的沉浸式体验、远程会议、助听器和语音助手等应用中具有广泛的应用前景。通过提高音频的可理解性和真实感,MVSD可以显著改善这些应用的用户体验。此外,该框架的互学习机制和扩散模型基础使其能够有效利用未配对数据,这对于实际应用中的数据获取和处理具有重要意义。