揭秘语言学中的重叠与重复:一种基于RiR结构的计算方法
摘要
本文探讨了重复性不流畅和重叠在语言学中的区别,提出了一种利用计算语言学方法进行大规模研究的新方法。文章介绍了IndicRedRep数据集,该数据集包含印地语、泰卢固语和马拉地语的文本,并详细标注了单词级别的重叠和不流畅重复。通过使用基于变换器的模型和Reparandum-Interregnum-Repair(RiR)结构,文章评估了模型在区分这两种现象上的性能,取得了高达85.62%的宏观F1分数。研究不仅提升了对语言技术的理解,还为自动语音识别系统中的不流畅检测提供了新的视角。
原理
文章的核心在于利用RiR结构来区分重叠和重复性不流畅。RiR结构包括三个主要部分:Reparandum(初始段)、Interregnum(中间段)和Repair(修复段)。这种结构帮助模型捕捉到重叠和重复性不流畅之间的细微差别,特别是在重复或重叠的单词周围有特定上下文时。通过分析这些上下文,模型能够更准确地分类,从而提高了在多语言环境下的识别准确性。
流程
研究首先收集并标注了大量的语音数据,创建了IndicRedRep数据集。随后,使用多种模型(包括逻辑回归、BiLSTM-CRF和基于变换器的模型)对数据进行训练和测试。特别地,基于变换器的模型在结合RiR结构后,显著提高了分类性能。例如,在印地语中,结合RiR结构的模型在重叠和不流畅重复的分类任务上达到了85.62%的F1分数。
应用
该研究的应用前景广泛,特别是在自动语音识别(ASR)系统和机器翻译(MT)领域。通过准确识别和处理语音中的重叠和不流畅重复,可以显著提高ASR系统的性能,减少误识别率。此外,这种方法还可以扩展到其他语言和更多的语言现象分析中,为多语言处理技术的发展提供新的工具和视角。
