NADI 2024:阿拉伯语方言识别与处理的新挑战与机遇
摘要
本文介绍了第五届 Nuanced Arabic Dialect Identification Shared Task(NADI 2024)的研究成果。NADI 的目标是通过提供指导、数据集、建模机会和标准化评估条件,帮助推进阿拉伯语 NLP 的发展,使研究人员能够在预先指定的任务上进行协作竞争。NADI 2024 针对方言识别(作为多标签任务)、阿拉伯语方言程度识别(子任务 2)和方言到 MSA 的机器翻译(子任务 3)。共有 51 个独特的团队注册参加共享任务,其中 12 个团队参与(在测试阶段有 76 个有效提交)。其中,三个团队参加了子任务 1,三个团队参加了子任务 2,八个团队参加了子任务 3。获奖团队在子任务 1 上分别实现了 50.57 F1、0.1403 RMSE 和 20.44 BLEU。结果表明,阿拉伯语方言处理任务,如方言识别和机器翻译仍然具有挑战性。我们描述了参与团队所采用的方法,并简要展望了 NADI 的未来。
原理
NADI 2024 共享任务的三个子任务的工作原理如下:
- 子任务 1:多标签方言识别(MDID)。该子任务的目标是评估使用单标签阿拉伯语方言识别数据集训练多标签系统的可行性,该系统可以预测给定句子在所有有效方言中的有效性。
 - 子任务 2:阿拉伯语方言程度(ALDi)估计。该子任务的目标是估计句子的阿拉伯语方言程度,作为一个连续值在 0 到 1 之间。
 - 子任务 3:机器翻译。该子任务的目标是将四种阿拉伯语方言(即埃及语、阿联酋语、约旦语和巴勒斯坦语)的句子翻译成 MSA。
 
流程
NADI 2024 共享任务的三个子任务的工作流程如下:
- 子任务 1:
- 训练数据:提供参与者以下数据集的训练分割:MADAR-2018、NADI-2020-TWT、NADI-2021-TWT 和 NADI-2023-TWT。
 - 开发和测试数据:提供一个新的多标签开发集:MDID-DEV,以及一个测试集:MDID-TEST。
 - 限制:子任务 1 在封闭轨道政策下运行,参与者只能使用我们提供的数据集进行系统训练。
 
 - 子任务 2:
- 训练数据:提供 AOC-ALDi 数据集的训练分割。
 - 开发和测试数据:为子任务 1 收集的开发和测试集扩展了第二层注释,用于手动 ALDi 级别,形成 ALDi-DEV 和 ALDi-TEST 集。
 - 限制:子任务 2 在开放轨道政策下运行,允许参与者在他们选择的任何其他数据集上训练他们的系统,只要他们解释数据的来源和使用方式,并且这些额外的训练数据集在提交时是公开的。
 
 - 子任务 3:
- 训练数据:不提供直接的训练数据。然而,为了促进子任务 3,我们指向参与者 MADAR 并行数据集和一个单语数据集,参与者可以手动翻译并用于训练。
 - 开发和测试数据:为子任务 3 手动策划和翻译全新的开发和测试数据,这些数据在 NADI2023 中未使用。
 - 限制:子任务 3 在开放轨道政策下运行,允许参与者在他们选择的任何其他数据集上训练他们的系统,只要这些额外的训练数据集在提交时是公开的。
 
 
应用
NADI 2024 共享任务的三个子任务的应用前景如下:
- 子任务 1:多标签方言识别(MDID)。该子任务的应用前景包括自然语言处理、机器翻译、语音识别等领域。
 - 子任务 2:阿拉伯语方言程度(ALDi)估计。该子任务的应用前景包括自然语言处理、机器翻译、语音识别等领域。
 - 子任务 3:机器翻译。该子任务的应用前景包括自然语言处理、机器翻译、语音识别等领域。
 
