探索文化智能:CULTURALVQA基准如何推动视觉语言模型在文化理解上的进步
摘要
本文介绍了一项关于视觉语言模型(VLMs)在文化理解方面的研究。研究团队开发了CULTURALVQA基准,这是一个用于评估VLMs对来自11个国家、跨越5大洲的文化概念理解的视觉问答基准。该基准包含2,378个图像-问题对,每个问题有1-5个答案,涵盖了服装、食物、饮料、仪式和传统等多个文化方面。研究结果显示,VLMs在北美文化的理解上表现较好,而在非洲文化的理解上表现较差,这表明VLMs在文化理解方面存在显著的不平衡。此外,研究还揭示了开源模型与闭源模型在文化理解能力上的差距,并强调了CULTURALVQA作为评估VLMs文化理解进步的综合工具的潜力。
原理
CULTURALVQA基准的工作原理基于视觉问答(VQA)任务,要求模型整合视觉和文本信息来回答关于图像中文化概念的问题。该基准通过从CANDLE数据集中提取文化常识知识(CCSK)的图像,并由来自不同文化的注释者提出问题和答案,从而构建了一个全面的文化理解评估集。模型需要根据图像内容和问题,提供精确且文化特定的答案。通过这种方式,CULTURALVQA能够评估模型对不同文化细节的理解能力,从而突出其在文化理解方面的先进性。
流程
CULTURALVQA的工作流程包括以下几个步骤:
- 图像选择:从CANDLE数据集中选择与文化概念相关的图像,并通过CLIP相似度评分筛选出文化相关性高的图像。
 - 问题收集:注释者根据图像内容提出问题,这些问题旨在测试模型对特定文化知识的理解。
 - 答案收集:注释者为每个问题提供答案,确保答案反映了文化共识。
 - 模型评估:使用CULTURALVQA基准评估多个VLMs,包括GPT-4V和Gemini,通过LAVE评估指标计算模型答案的准确性。 例如,对于一个展示印度传统服装的图像,问题可能是“这种服装的下半部分叫什么?”,正确答案是“Dhoti”。模型需要识别图像中的服装并提供正确的文化特定答案。
 
应用
CULTURALVQA基准的应用前景广泛,特别是在全球数字交互日益增多的背景下。该基准可以帮助开发者和研究人员识别和改进VLMs在文化理解方面的不足,从而推动模型在跨文化交流、教育、旅游等领域的应用。通过提高VLMs的文化理解能力,可以增强其在处理多语言和多文化环境中的有效性和适应性。
