"创新融合:说话者嵌入在端到端神经说话者细分中的应用与突破"

Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios

摘要

本文探讨了在双说话者场景中,如何通过在端到端神经说话者细分系统中融入说话者信息嵌入来增强说话者区分能力,同时保持其处理语音重叠的优势。研究提出多种方法将这些嵌入与声学特征结合,并深入分析了沉默帧的正确处理、提取说话者嵌入的窗口长度以及变换器编码器大小等关键参数。实验在CallHome数据集上进行,结果显示相较于基准端到端模型,细分错误率显著降低,实现了10.78%的相对改进。

原理

本文的核心在于通过将说话者嵌入(如ECAPA-TDNN提取的x向量)整合到端到端的神经说话者细分模型EEND-EDA中,以提升模型对说话者的区分能力。这些嵌入通过不同的方式(如直接输入到EDA模块、作为SA-EEND编码器的输入、或与MFbank声学特征串联)被引入系统。模型通过LSTM编码器-解码器架构生成吸引子,这些吸引子用于确定说话者的存在概率,并通过排列不变训练(PIT)方案计算细分损失,最终结合细分损失和吸引子存在损失进行优化。

流程

研究提出了三种方法将说话者嵌入与声学特征结合:1) 将说话者嵌入输入到EDA模块;2) 将说话者嵌入作为SA-EEND编码器的输入;3) 将说话者嵌入与MFbank声学特征串联后输入到SA-EEND编码器。每种方法都通过特定的架构设计实现,确保嵌入信息能够有效辅助模型区分说话者。实验中,模型首先在模拟数据集上训练,然后在真实对话数据集上进行微调,最终评估其在不同条件下的细分错误率(DER)。

应用

该研究提出的方法不仅适用于电话对话的说话者细分,还可扩展到会议记录、广播新闻等多种需要说话者细分的场景。随着技术的进一步优化和模型的泛化能力提升,预计将在自动语音识别、人机交互等领域发挥重要作用,特别是在需要精确区分说话者的应用中。