"零样本跨语言性能提升:基于LLM的数据增强与有效数据选择"

Boosting Zero-Shot Crosslingual Performance using LLM-Based Augmentations with Effective Data Selection

摘要

本文探讨了如何利用大型语言模型(LLM)的零样本提示生成任务特定数据,以促进低资源目标语言的跨语言迁移。通过在源语言中使用任务特定数据训练教师模型,并利用该模型对LLM生成的数据进行标签化,结合简单的数据选择策略,本文提出了一种有效的数据增强方法。实验结果显示,这种方法在情感分析和自然语言推理任务中显著提高了跨语言迁移的准确性,尤其是在印度语系等低资源语言中。

原理

本文的核心工作原理是利用LLM的生成能力,通过零样本提示生成英语中的任务特定文本。生成的文本随后通过一个在源语言(如英语)任务特定数据上训练的教师模型进行标签化。为了提高效率和准确性,本文采用了一系列数据选择策略,如随机选择(rand-k)、最高概率选择(top-k)和多样化选择(div-k),以从大量生成的数据中筛选出代表性子集。这些策略帮助识别出更有助于学习的训练实例,从而提高模型在下游任务中的泛化能力。

流程

  1. 数据生成:使用LLM根据特定任务和域的提示生成英语文本。
  2. 标签化:利用教师模型对生成的文本进行标签化,生成伪标签。
  3. 数据选择:应用数据选择策略(如rand-k, top-k, div-k)从生成的数据中选择一个子集。
  4. 模型训练:使用选择的带标签数据增强源语言数据,训练学生模型。
  5. 评估:在目标语言的评估集上测试模型的性能。

例如,对于情感分析任务,首先生成一系列英语评论,然后通过教师模型为这些评论分配情感标签(正面、负面、中性)。接着,使用数据选择策略筛选出最具代表性的评论子集,最后用这些数据训练模型并在目标语言(如印地语)的评论数据上进行评估。

应用

本文提出的方法不仅限于情感分析和自然语言推理任务,还可以扩展到其他类型的分类任务,如问答和常识推理。此外,该方法对于多语言环境下的数据增强和模型训练具有广泛的应用前景,特别是在资源匮乏的语言和领域中,能够有效提升模型的跨语言迁移能力和性能。