探索全球视野:提升人工智能的多元文化理解能力

From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models

摘要

本文介绍了一项名为GLOBALRG的基准测试,旨在评估视觉-语言模型(VLMs)在非西方文化图像上的表现。由于训练数据集中西方文化图像的过度代表性,VLMs在处理非西方文化图像时表现不佳。GLOBALRG包含两个任务:跨文化通用概念检索和文化特定视觉定位。通过广泛的模型评估,研究发现模型在不同文化间的性能存在显著差异,强调了提升VLMs多元文化理解能力的必要性。

原理

GLOBALRG基准测试通过两个主要任务来评估VLMs的多元文化理解能力。第一个任务是“跨文化通用概念检索”,要求模型从50个国家的图像中检索与通用概念相关的文化多样性图像。第二个任务是“文化特定视觉定位”,评估模型在15个国家的图像中定位特定文化概念的能力。评估不仅关注模型的准确性(使用precision@k指标),还引入了diversity@k指标来衡量检索图像的文化多样性,通过熵值计算来评估图像分布的均匀性。

流程

在“跨文化通用概念检索”任务中,模型接收一个通用概念的文本查询,如“婚礼”,并从包含50个不同文化的图像库中检索相关图像。模型不仅需要识别出与查询相关的图像,还需要确保这些图像来自不同的文化背景,以展示其文化多样性的理解能力。在“文化特定视觉定位”任务中,模型需要在给定的图像中准确地定位并识别出特定的文化物品或概念,如墨西哥的“molinillo”(一种搅拌器)。

应用

GLOBALRG基准测试的应用前景广泛,特别是在需要处理和理解全球多元文化的领域,如跨文化交流、旅游推荐系统、文化教育资源等。通过提升VLMs的多元文化理解能力,可以开发出更加公平和包容的应用,服务于全球用户。