探索艺术情感:SEU 309团队在ICCV23挑战中的多元模型创新
摘要
本文介绍了SEU 309团队在ICCV23视觉对话情感解释生成挑战中的技术报告。该挑战专注于通过视觉对话交互在艺术讨论中生成情感解释。团队采用先进的多元模型,包括语言模型(LM)和大型视觉语言模型(LVLM),以实现卓越的性能。通过这些模型的结合,团队在F1和BLEU指标上显著超越现有基准,并在挑战中获得最高排名。该方法不仅提高了情感解释的准确性,还加深了对艺术中情感影响的理解。
原理
SEU 309团队的方法核心在于结合语言模型(LM)和大型视觉语言模型(LVLM)来处理和生成情感解释。在LM-based方法中,使用BLIP2模型将图像转换为文本,然后通过预训练的语言模型进行微调,专注于生成对话中的情感解释。而在LVLM-based方法中,利用LLAVA模型直接处理图像和文本输入,这是一个端到端训练的大型多元模型,结合了视觉编码器和Vicuna语言模型,用于通用视觉和语言理解。这两种方法的结合,通过模型集成和硬投票机制,优化了情感分类和解释生成的准确性。
流程
团队首先使用BLIP2模型将图像转换为文本描述,然后将这些描述与对话文本结合,输入到预训练的语言模型中进行微调,以生成情感解释。在LVLM-based方法中,图像和对话文本直接输入到LLAVA模型中,该模型通过视觉编码器和语言模型的结合,生成情感选项和解释。整个流程包括数据预处理、模型训练、集成和最终的情感分类与解释生成。
应用
该技术在艺术评论、心理健康分析、教育辅导等领域具有广泛的应用前景。通过准确捕捉和解释艺术作品引发的情感反应,可以帮助艺术教育、心理治疗和社交互动等多个领域的发展。此外,该方法也为开发更符合人类情感状态和需求的AI系统提供了新的可能性。
