探索NativQA:构建多语言文化对齐的QA数据集,推动LLMs的区域适应性

NativQA: Multilingual Culturally-Aligned Natural Query for LLMs

摘要

本文介绍了一种名为NativQA的框架,旨在构建与特定区域和文化对齐的多语言自然问题回答(QA)数据集,用于评估和微调大型语言模型(LLMs)。该研究提出了一个名为MultiNativQA的多语言QA数据集,包含约72,000个QA对,涵盖七种语言和18个主题。通过对比开放和封闭源LLMs在该数据集上的表现,论文展示了NativQA框架的有效性,并强调了其在提升LLMs对本地用户信息需求和文化背景适应性方面的潜力。

原理

NativQA框架通过三个主要模块实现数据集的构建:查询收集(QC)、QA收集(QAC)和QA验证(QAV)。QC模块通过招募本地语言使用者,收集与特定主题相关的开放式查询。QAC模块利用搜索引擎(如Google)收集与这些查询相关的QA对,并利用搜索引擎的“人们也问”功能来丰富查询和QA对。QAV模块通过半监督的域可靠性检查和人工注释来验证QA对的质量和可靠性。这种人机协作的方法确保了数据集的文化和区域相关性,同时提高了数据收集的效率。

流程

NativQA框架的工作流程从查询收集开始,通过招募本地语言使用者收集初始查询。然后,利用LLM生成相似查询以增加查询的多样性。接下来,使用搜索引擎收集与这些查询相关的QA对,并通过迭代过程不断丰富查询和QA对。最后,通过域可靠性检查和人工注释来验证QA对的质量,确保数据集的高质量和高相关性。例如,对于一个关于“卡塔尔野生动物”的查询,搜索引擎会返回相关的问题和答案,如“卡塔尔有哪些野生动物?”和“卡塔尔的陆地野生动物包括多种小型夜行动物、爬行动物和节肢动物。”

应用

NativQA框架和MultiNativQA数据集的应用前景广泛,特别是在提升LLMs在多语言和多文化环境中的性能方面。这些数据集可以用于评估和微调LLMs,使其更好地理解和生成与特定文化和区域相关的语言。此外,这些数据集还可以促进跨文化交流和理解,为全球用户提供更加个性化和相关的内容。随着全球化的推进,NativQA框架和MultiNativQA数据集将在多语言和多文化的人工智能应用中发挥重要作用。