提升大型语言模型的长上下文处理能力:合成数据微调的新方法

From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data

摘要

本文由威斯康星大学麦迪逊分校的研究团队提出,针对大型语言模型(LLMs)在处理长上下文输入时信息检索和推理能力不足的问题,提出了一种基于合成数据微调的方法。通过在精心设计的合成数据集上进行微调,实验证明该方法显著提升了模型在长上下文任务中的表现,如多文档问答(MDQA)和灵活长度问答(FLenQA),同时保持了模型在通用基准上的性能。

原理

本文提出的方法通过创建一个包含数值键值对检索任务的合成数据集,对LLMs进行微调。这种合成数据集不包含任何事实信息,避免了模型在学习过程中产生幻觉(hallucination)的问题。微调过程中,模型学习如何从大量的键值对中准确检索信息,这种能力随后被转移到实际的自然语言处理任务中,如长文档的问答。通过这种方式,模型在处理长上下文时能够更有效地进行信息检索和推理。

流程

研究团队首先设计了两种类型的合成检索任务:简单键值对检索和多子键键值对检索。然后,他们使用这些任务对GPT-3.5 Turbo和Mistral 7B模型进行微调。在微调过程中,模型被训练来识别和检索特定的键值对,即使在键的顺序被打乱的情况下也能正确响应。微调后的模型在MDQA和FLenQA任务上的表现显著提升,特别是在处理长文档时,模型能够更准确地定位和利用关键信息。

应用

该研究提出的方法不仅提升了LLMs在长上下文任务中的性能,而且由于合成数据的使用,避免了传统微调方法可能导致的幻觉问题。这种方法的应用前景广泛,可以用于需要处理大量文本数据的场景,如法律文档分析、医学文献综述和大规模数据挖掘等。此外,由于模型性能的提升并未牺牲其在通用任务上的表现,这种方法也为LLMs的实际部署提供了更高的可靠性。