创新口音适应技术:提升自监督预训练在自动语音识别中的性能
摘要
本文由Darshan Prabhu等人撰写,针对自动语音识别(ASR)系统在处理不同口音时性能下降的问题,提出了一种基于口音特定码本的自监督预训练技术。该技术通过引入一组可训练的口音特定码本,使模型在预训练阶段就能捕捉到口音特定信息,并在后续的ASR微调阶段进一步细化。在Mozilla Common Voice数据集上的实验表明,该方法在已见和未见英语口音上均优于其他口音适应方法,实现了高达9%的相对词错误率(WER)降低。
Read more...








