探索语音表示学习的新前沿:Learn2Diss框架的解耦自监督学习

Towards the Next Frontier in Speech Representation Learning Using Disentanglement

摘要

本文介绍了一种名为Learn2Diss的新型自监督学习框架,旨在从语音数据中学习解耦的表示。该框架通过结合帧级和语句级编码器,分别学习伪语音和伪说话者表示,并通过互信息最小化实现两者的解耦。实验结果表明,Learn2Diss框架在多种下游任务中实现了最先进的性能,特别是在语义和非语义任务中分别提升了帧级和语句级表示的性能。

原理

Learn2Diss框架的核心在于其双编码器结构,包括一个帧级编码器和一个语句级编码器。帧级编码器借鉴现有的自监督技术,学习伪语音表示,而语句级编码器则通过对比学习,学习伪说话者表示。两个编码器通过互信息最小化进行联合优化,确保两者之间的信息解耦。具体来说,互信息最小化是通过对比对数比上限(CLUB)实现的,这是一种估计随机变量之间互信息上限的技术。

流程

Learn2Diss框架的工作流程包括四个主要组件:特征提取器、可训练的帧级和语句级编码器,以及一个用于互信息估计的变分网络。特征提取器是一个冻结模型,其输出被送入两个编码器。帧级编码器通过掩码和对比损失学习伪语音表示,而语句级编码器通过对比学习和聚类损失学习伪说话者表示。最后,通过互信息最小化模块,两个编码器的表示被解耦,以优化总损失。

应用

Learn2Diss框架的应用前景广泛,特别是在语音识别、说话者识别和情感识别等任务中。由于其能够有效地解耦语义和非语义信息,该框架在处理复杂语音数据时具有显著优势,有望推动语音处理技术的发展,特别是在低资源和高噪声环境下的应用。