解锁低资源语言的潜力:模型合并技术在大型语言模型中的应用

Unlocking the Potential of Model Merging for Low-Resource Languages

摘要

本文探讨了如何通过模型合并技术为低资源语言构建具有任务解决能力的大型语言模型(LLMs)。传统的适应方法涉及连续预训练(CT)后进行监督微调(SFT),但在低资源语言环境下,这种方法难以平衡语言建模和任务解决能力。因此,本文提出了一种新的模型合并方法,该方法无需额外训练即可将具有不同能力的模型合并为一个模型。实验基于Llama-2-7B模型,结果显示模型合并在数据极其稀缺的情况下优于CT-then-SFT方法。此外,本文还分析了模型合并过程中的性能饱和现象,并引入松弛变量以减少重要参数的损失,从而提升性能。本文希望模型合并技术能够为更多受数据稀缺困扰的人类语言带来更高的数据效率。

原理

模型合并是一种将多个具有不同能力的模型合并为一个单一模型的技术,无需额外训练。本文提出的模型合并方法通过结合不同模型的能力,为低资源语言构建具有任务解决能力的LLMs。具体来说,模型合并涉及两种常用方法:加权平均(WAVG)和任务向量整合(TIES)。加权平均通过在验证集上调优权重来平均两个模型的参数。TIES则通过计算任务向量并进行修剪、选举符号和非重叠合并三个步骤,更细致地处理多个模型间的参数冲突。通过这些方法,模型合并能够在保留语言建模能力的同时,有效地整合任务解决能力。

流程

本文的工作流程首先从仅在英语语料库上预训练的基础模型(如Llama-2-7B)开始,然后对目标低资源语言进行连续预训练(CT)。接下来,通过两种方法注入任务解决能力:一是使用英语SFT数据训练LLM,二是将模型与英语任务解决LLM合并。实验结果显示,在目标语言预训练语料极其稀缺(<10B tokens)的情况下,模型合并能够有效地为CT模型注入任务解决能力。具体的工作流程如图1所示,展示了不同模型之间的关系和构建过程。

应用

模型合并技术为低资源语言构建任务解决LLMs提供了一种高效且无需大量SFT数据的方法。这种方法不仅适用于当前研究中的七种低资源语言,还具有广泛的潜在应用范围,包括但不限于其他低资源语言和多语言模型的构建。随着技术的进一步发展和优化,模型合并有望在多语言处理和全球语言资源的均衡发展中发挥重要作用。