探索Qifusion-Net:引领多口音语音识别的新前沿
摘要
本文介绍了一种名为Qifusion-Net的端到端多口音语音识别模型,该模型通过层适应融合(LAF)策略,无需预先了解目标口音信息即可有效识别多口音语音。基于动态块策略,Qifusion-Net支持流式和非流式解码模式,并能在帧级别提取声学特征,实现细粒度信息融合。实验结果显示,Qifusion-Net在KeSpeech和MagicData-RMAC数据集上的字符错误率(CER)分别降低了22.1%和17.2%,显著优于基线模型。
Read more...








