"突破传统:无嵌入式长形式神经对话分割的新纪元"

Speakers Unembedded: Embedding-free Approach to Long-form Neural Diarization

摘要

本文介绍了一种新颖的无嵌入式长形式神经对话分割方法,由Xiang Li, Vivek Govindan, Rohit Paturi, Sundararajan Srinivasan在AWS AI Labs提出。该方法通过结合本地和全局的端到端神经对话分割(EEND),无需单独的说话人嵌入框架,显著减少了对话错误率(DER),并在多个数据集上展示了其优越性能。本文还探讨了该框架的计算复杂性,并提出了减少处理时间的策略。

原理

该论文提出的无嵌入式长形式神经对话分割方法通过以下步骤实现:首先,将长音频分割成固定大小的窗口,每个窗口内使用EEND模型进行本地对话分割。接着,通过重新应用EEND到由本地窗口配对形成的块中,解决跨窗口标签排列问题,生成成对说话人分数。最后,利用这些分数构建亲和矩阵进行最终的聚类和全局说话人标签分配,无需任何说话人嵌入。这种方法不仅简化了传统方法的复杂性,还提高了处理长音频和多说话人场景的性能。

流程

  1. 本地EEND:将输入音频分割成固定大小的窗口,每个窗口内提取声学特征并使用EEND模型估计帧级后验概率,通过阈值化和中值滤波获得本地说话人标签。
  2. 全局EEND:计算跨本地窗口的说话人相似度,通过配对说话人帧并应用EEND生成跨窗口帧级后验概率,进一步聚合为说话人级后验概率。
  3. 无嵌入式聚类:计算成对说话人相似度,构建亲和矩阵,并使用谱聚类将说话人帧分组,结合不能链接约束以增强聚类性能。

应用

该方法适用于需要处理长音频和多说话人场景的应用,如电话会议记录、广播新闻分析等。由于其无需额外说话人嵌入,特别适合在隐私保护要求高的环境中使用。此外,该方法的计算效率高,适合实时应用和大规模数据处理。