XEUS:突破性的多语言通用语音编码器,引领语音识别技术的新纪元

Towards Robust Speech Representation Learning for Thousands of Languages

摘要

本文介绍了一种名为XEUS的新型跨语言通用语音编码器,该编码器通过自监督学习(SSL)在超过100万小时的4057种语言数据上进行预训练。XEUS通过结合现有的公开可用语料库和新创建的7400+小时语料库,显著扩展了SSL模型的语言覆盖范围。为了增强模型对多语言语音数据的多样性和噪声条件的鲁棒性,XEUS引入了一种新的去混响目标,通过预测从模拟混响音频中提取的干净离散音素伪标签来提高模型的鲁棒性。实验结果显示,XEUS在多个基准测试中持续优于或达到与最先进(SOTA)SSL模型相当的结果,尤其在多语言语音识别和语言识别任务中表现突出。此外,XEUS的代码、模型检查点和数据将公开发布,以促进进一步的研究和可重复性。

原理

XEUS的核心工作原理基于自监督学习框架,通过预测任务从大量未标记的语音数据中学习语音表示。具体来说,XEUS采用了HuBERT的掩码预测方法和WavLM的噪声抑制目标,并引入了一种新的去混响任务。在训练过程中,模型需要从模拟的混响音频中预测出干净的音素伪标签,这一过程帮助模型学习到如何从噪声环境中提取有用的语音信息。此外,XEUS使用了E-Branchformer架构,这是一种结合了卷积和自注意力机制的模型结构,能够更有效地捕捉语音信号的局部和全局特征。通过这种多任务学习框架和先进的模型架构,XEUS能够在保持较少参数的情况下,实现对多种语言和复杂录音条件的鲁棒处理。

流程

XEUS的预训练工作流程包括以下几个关键步骤:

  1. 数据准备:收集和整合来自37个公开可用语料库的100万小时语音数据,以及新创建的7400+小时语料库。
  2. 伪标签生成:使用预训练的WavLabLM模型从训练数据中提取编码表示,并通过k-means聚类生成音素伪标签。
  3. 模型训练:在64个NVIDIA A100 GPU上进行模型预训练,使用掩码预测、噪声抑制和去混响任务作为训练目标。
  4. 评估与优化:在多个下游任务上评估模型性能,如多语言自动语音识别(ASR)和语言识别(LID),并根据评估结果进行模型优化。
  5. 发布与共享:将预训练模型、代码和数据集公开发布,以便学术界和工业界进行进一步的研究和应用。

应用

XEUS的应用前景广泛,特别是在多语言环境下的语音识别、翻译和内容理解等领域。由于其对多种语言和噪声条件的鲁棒性,XEUS可以被用于构建更加通用和适应性强的语音处理系统,尤其是在资源有限或语言多样性高的地区。此外,XEUS的公开发布和共享将促进全球范围内的语音技术研究和应用,有助于推动语音识别技术的普及和进步。