希腊NLP研究的系统回顾:方法与应用
摘要
本文介绍了一种创建系统化和全面单语NLP调查的方法,并将其应用于2012年至2022年的希腊NLP研究。该研究填补了文献中单语NLP调查的空白,通过结构化搜索协议选择出版物,并通过NLP任务的分类法组织它们。我们包括了语言资源(LRs)的分类,根据其可用性,并强调了公开可用的和机器可操作的LRs。通过应用我们的方法,我们对希腊NLP进行了系统的文献回顾,提供了当前状态和挑战的全面概述。我们讨论了希腊NLP的进展,并概述了遇到的希腊LRs,按可用性和可用性分类。我们考虑这种对希腊NLP的系统文献回顾是我们的方法的一个应用,展示了单语NLP调查的好处。类似的应用可以关注那些在NLP方面进展落后于良好支持语言的无数语言。
原理
本文提出的方法通过结构化搜索协议选择出版物,并通过NLP任务的分类法组织它们。该方法包括一个清晰的搜索协议,用于系统地选择要调查的出版物。此外,我们引入了一个NLP任务的分类法,以连贯地组织和呈现材料,并提供了两种语言资源(LRs)的分类方案,根据其可用性和注释类型。这些方案有助于识别公开可用的和机器可操作的数据集,这些数据集可以用于预训练、微调和评估NLP模型,而不会继承良好支持语言的假设和偏见。我们通过希腊语的应用,审查了从2012年到2022年发表的超过一千篇关于希腊NLP的研究论文,并仔细调查了其中符合我们搜索协议定义的特定标准的122篇研究。通过遵循NLP任务分类法,我们描述了调查论文中解决的NLP主题领域,作者使用的语言模型(LMs)和方法,以及方法从传统的机器学习(ML)到深度学习(DL)方法的演变。我们还讨论了数据集和词汇资源,提供了现有希腊LRs的全面概述。
流程
- 搜索协议设计:设计并执行了一个全面的搜索策略,跨越多个著名的科学数据库,旨在识别与希腊自然语言处理(NLP)相关的研究论文,发表于2012年1月至2022年12月。
 - 筛选和过滤:从数据库中检索了总共1,577条书目记录,去重后减少到1,035条。每条记录包括标题、作者姓名、摘要、出版日期和引用等元数据。根据排除标准,手动添加了当缺失时的出版类型(如会议论文、期刊文章等)。通过这一过程,最终包括了122篇论文。
 - 元数据提取:除了之前步骤中检索的元数据,如Google Scholar引用次数和出版类型,我们还手动添加了关于搜索过程的信息。这包括搜索日期、查询的数据库以及用于检索论文的查询。我们还对论文进行了分类,区分了研究论文、概述、共享任务概述和提交给共享任务的论文。此外,我们还添加了作者处理的研究任务(参见§3.2.1的任务分类法)、使用的关键词和覆盖的语言等信息。关于为每篇论文创建的语言资源(LRs),我们收集了有关其可用性(参见§3.2.2的LR可用性分类法)、注释类型(参见§3.2.2的LR注释类型分类方案)、大小、语言类型(单语或双语)、注释类型(如果有)、领域和时间覆盖的信息。
 - 分类法:我们采用了由Bommasani, Liang, and Lee (2023)提出的全面的任务分类法,该分类法与顶级NLP会议(即ACL (2023))的主题轨道一致。每个检索到的出版物都被分配到一个特定的NLP任务,该论文对此任务做出了贡献;定义了一系列规范的任务名称,确保一致性。未解决规范任务的研究也被分配到它们执行的任务。随后,每个任务被映射到相关的会议轨道,并被分配到ACL (2023)提出的主题主题。在特定情况下,我们的分类法与ACL分类有所不同。具体来说,我们将作者身份分析与情感分析和论点挖掘分开呈现,尽管ACL有一个针对“情感分析、文体分析和论点挖掘”的单一轨道。这一决定是由作者身份分析在希腊NLP社区中引起了越来越多的关注所驱动的。此外,我们还发现了一些不执行“规范”NLP任务的研究。例如,历史修订的整合并不属于特定的主题领域,因此被附加在NLP应用下。
 - 语言资源分类:我们的调查目标之一是编译在审查研究中开发的LRs的全面列表,包括详细的元数据。这些元数据包括LR的可用性,确保其符合FAIR数据原则——可查找、可访问、互操作和可重用(Wilkinson et al. 2016)。此外,我们还评估了数据集的注释类型,这指的是资源被注释的方式,影响数据质量、任务适用性、可重复性和研究透明度。
 
应用
本文提出的方法和应用展示了单语NLP调查在推进特定语言的NLP领域的价值。通过系统地组织和呈现材料,以及提供公开可用的和机器可操作的语言资源(LRs),该方法有助于资源共享和重用。此外,通过评估每个NLP任务的支持水平,该方法强调了资源匮乏和需要开发的领域。总体而言,该方法为其他语言的单语NLP调查提供了一个模型,有助于使NLP技术的进步更加包容和广泛可及。
