CVM:在资源受限环境中持续学习视觉概念映射到大型语言模型的新方法
摘要
本文探讨了在资源受限环境下,如何持续学习将视觉概念映射到大型语言模型(LLM)中的挑战。传统的视觉模型在持续更新过程中容易出现过拟合、灾难性遗忘和偏见表示问题。相比之下,LLM包含多概念及其关系的知识,有助于更稳健、信息丰富和连贯的学习过程。为此,本文提出了持续视觉映射(CVM)方法,该方法通过不断训练一个小型高效的视觉模型,将其表示映射到由固定LLM建立的概念空间中。CVM在五个基准测试中超越了现有的持续学习方法,为在计算受限设备中解决持续学习的泛化能力提供了有前景的途径。
原理
CVM的核心原理是利用预训练的LLM的知识空间来训练一个小型视觉模型。具体来说,CVM通过不断训练一个小型视觉模型,使其能够将视觉表示映射到由LLM定义的固定概念空间中。这种方法的关键在于,LLM的权重在训练过程中保持不变,仅利用其丰富的语义空间来指导视觉模型的学习。通过这种方式,CVM不仅减少了计算需求,还提高了模型的泛化能力和抗遗忘能力。
流程
CVM的工作流程包括两个主要阶段:训练和推理。在训练阶段,视觉模型通过最小化三元组损失和语义距离损失来学习将视觉表示映射到LLM的语义空间中。具体来说,三元组损失确保视觉表示与其对应类别的表示接近,而与其他类别的表示远离。语义距离损失则确保模型能够保留先前学习到的类别间的关系。在推理阶段,模型通过计算输入图像的视觉表示与已知类别表示之间的距离,选择最接近的类别作为预测结果。
应用
CVM的应用前景广泛,特别是在需要实时处理和计算资源受限的环境中。由于CVM能够在不直接使用大型预训练模型的情况下,利用LLM的知识进行视觉概念的学习和推理,因此它非常适合于嵌入式设备、移动设备和其他资源受限的场景。此外,CVM的泛化能力和抗遗忘特性使其在持续学习和多任务学习领域具有潜在的应用价值。
