深度伪造音频检测的新突破:集成深度学习模型的应用与前景

Deepfake Audio Detection Using Spectrogram-based Feature and Ensemble of Deep Learning Models

摘要

本文提出了一种基于深度学习的系统,用于检测深度伪造音频。该系统通过将输入音频转换为多种频谱图,并利用多种深度学习模型进行分类,以识别音频的真伪。研究在ASVspoof 2019基准数据集上进行了评估,最佳集成模型达到了0.03的等误差率(EER),显示出高度竞争力。实验结果强调了选择性频谱图和深度学习方法在提升音频深度伪造检测任务中的潜力。

原理

本文的核心在于利用多种频谱图转换方法(如短时傅里叶变换STFT、常数Q变换CQT、小波变换WT)结合不同的听觉滤波器(如Mel、Gammatone、线性滤波器LF)生成频谱图。这些频谱图随后被用于训练多种深度学习模型,包括基于CNN、RNN和CRNN的基准模型,以及通过迁移学习微调的计算机视觉模型(如ResNet-18、MobileNet-V3等)。此外,还利用了先进的预训练音频模型(如Whisper、Speechbrain、Pyannote)提取音频嵌入,并通过多层感知器(MLP)进行分类。最终,通过集成这些高性能模型来达到最佳检测性能。

流程

  1. 输入音频首先被分割成2秒的片段,然后转换为频谱图。
  2. 使用三种深度学习方法处理这些频谱图:直接训练的端到端方法、迁移学习微调方法和音频嵌入方法。
  3. 每个2秒音频片段的预测概率通过平均计算来得到整个音频的预测结果。
  4. 通过MEAN融合技术,将多个模型的预测概率进行平均,以得到最终的预测标签。

应用

该研究提出的深度伪造音频检测系统具有广泛的应用前景,特别是在需要高安全性认证的语音激活系统中,如智能家居设备、语音银行和虚拟助手等。随着深度伪造技术的不断发展,这种检测系统的有效性和准确性对于保护个人隐私和系统安全至关重要。