ROSA:突破传统微调限制,实现高效零延迟模型适应
摘要
本文介绍了一种名为“随机子空间适应”(ROSA)的新型参数高效微调(PEFT)方法,旨在解决大型模型训练过程中内存需求高的问题。ROSA通过在训练过程中不断采样不同的低秩可训练子空间并迭代合并学习信息,实现了在保持零延迟的同时,显著提高了下游任务的性能。该方法在自然语言生成(NLG)和自然语言理解(NLU)任务中,特别是在GPT-2和RoBERTa模型上,表现出了优于现有PEFT方法(如LoRA)的性能。
原理
ROSA的工作原理基于随机子空间适应,通过在训练过程中不断采样新的权重子空间,并使用奇异值分解(SVD)初始化这些子空间,从而扩展了模型的表达能力。与LoRA不同,ROSA不限制更新的权重矩阵为低秩矩阵,而是通过迭代合并和重新采样子空间,使得模型能够更接近全微调的效果。这种方法不仅保持了内存效率,还避免了LoRA在低秩约束下可能导致的性能限制。
流程
ROSA的工作流程包括以下步骤:首先,使用SVD将预训练模型的权重矩阵分解为固定和可训练的部分。然后,在每个训练周期中,随机选择一部分子空间进行更新,并在一定频率下合并这些子空间。这个过程重复进行,直到模型达到预定的训练周期。具体来说,ROSA在每个训练周期中,通过SVD分解权重矩阵,随机选择子空间进行训练,然后合并这些子空间,以此循环,逐步扩大可训练子空间的维度。
应用
ROSA的应用前景广泛,特别是在自然语言处理领域,如文本生成和理解任务。由于其高效的内存使用和零延迟特性,ROSA适用于资源受限的环境,如移动设备或边缘计算。此外,ROSA的高性能表现使其成为大型预训练语言模型微调的理想选择,有望在未来的AI应用中发挥重要作用。
