"DOM-SOT:革新多说话者语音识别的新策略"
摘要
本文由Ying Shi等研究者提出了一种名为“Serialized Output Training by Learned Dominance”的新型多说话者语音识别方法。该方法通过序列化解码单个说话者的语音,解决了标签排列问题,显著提升了在多说话者语音识别任务中的性能。研究通过在LibriSpeech和LibriMix数据库上的实验,展示了该方法在2-mix和3-mix场景下优于传统的排列不变训练(PIT)和基于时间的先进先出(FIFO)规则。此外,该方法通过引入一个辅助模块,能够自主识别并排序多说话者语音中的关键因素,如响度和性别,从而实现更高效的语音识别。
原理
DOM-SOT(Dominance-based Serialized Output Training)方法的核心在于其模型基于的序列化策略。该策略通过在注意力编码器-解码器(AED)架构中加入一个辅助序列化模块,该模块能够动态地确定标签顺序,而不是依赖于预定义的偏差或最小损失顺序。具体来说,序列化模块包含一个连接主义时间分类(CTC)解码器,该解码器与AED架构的编码器集成,通过最小化编码器输出与每个语音组件标签之间的最小CTC损失来训练。这种最小CTC损失迫使序列化模块从混合语音中识别出“主导组件”,类似于人类在鸡尾酒会环境中无意识地关注主导语音。一旦序列化模块完全训练,分配给每个语音组件的CTC损失(可视为主导分数)用于在混合信号中排序语音组件。
流程
DOM-SOT的工作流程包括以下几个关键步骤:首先,通过AED编码器提取多说话者语音的特征序列。然后,这些特征序列被送入序列化模块,该模块计算编码器输出与所有说话者标签之间的CTC损失。根据这些CTC损失,说话者被按升序排列,并据此构建目标标签。最后,整个模型通过最小化CTC损失和交叉熵损失的组合进行训练。实验中,模型在LibriSpeech和LibriMix数据库上进行了训练和测试,结果显示DOM-SOT在多种混合说话者场景下均表现出色。
应用
DOM-SOT方法的应用前景广泛,特别适用于需要高精度多说话者语音识别的场景,如会议记录、多用户交互系统、公共安全监控等。由于其能够有效处理说话者重叠和标签排列问题,DOM-SOT有望推动自动语音识别技术在复杂环境中的实际应用,提高系统的鲁棒性和准确性。
