提升低收入数据表现:视觉-语言模型的新策略

Uplifting Lower-Income Data: Strategies for Socioeconomic Perspective Shifts in Vision-Language Models

摘要

本文探讨了人工智能领域中视觉-语言模型(VL模型)在不同文化和经济群体中的表现不平等的问题。研究团队通过设计包含非英语、地理和经济社会属性的综合提示(prompts),评估这些提示对来自不同国家和收入群体数据的影响。研究发现,地理和经济社会属性的综合提示能显著提升VL模型在低收入数据上的表现,并有助于检索到更多低收入家庭常见的主题内容。此外,研究还识别了这些策略最有效的应用场景,并公开了模型分析代码以供进一步研究使用。

原理

研究团队采用了三种类型的文本提示技术:非英语语言的翻译提示、包含国家名称的后缀提示以及包含经济社会属性的后缀提示。这些提示被应用于一个地理和经济多样化的数据集,以分析它们对多语言VL模型在不同社会经济群体数据上表现的影响。通过计算NLLB-CLIP-SigLIP模型的图像嵌入和文本嵌入之间的余弦相似度,研究团队评估了这些提示对图像检索性能的影响,特别是在低收入数据上的表现。

流程

研究团队首先使用Dollar Street数据集,该数据集包含来自63个国家的38,479张家庭物品图片,涵盖多个收入水平。接着,他们设计了三种类型的提示:默认的英语主题提示、翻译的主题提示以及包含国家和收入信息的后缀提示。通过这些提示,团队使用NLLB-CLIP-SigLIP模型进行图像检索实验,并计算每个主题的召回率(Recall)。实验结果显示,包含国家和收入信息的后缀提示在低收入图像上的表现优于默认的英语提示。

应用

这项研究为改善VL模型在不同社会经济群体中的表现提供了有效的策略,特别是在提升低收入群体数据的处理能力方面。这些策略不仅有助于平衡AI模型在不同群体中的应用效果,也为跨文化交流和全球市场的AI应用提供了技术支持。未来,这些方法可以进一步扩展到其他领域,如教育、医疗和市场分析,以促进更加公平和包容的AI技术发展。