提升低收入数据表现:视觉-语言模型的集成提示策略研究
摘要
本文由Joan Nwatu、Oana Ignat、Rada Mihalcea等学者共同撰写,旨在解决视觉-语言模型(VL模型)在不同国家和收入群体中表现不均的问题。研究团队通过设计包含非英语、地理和经济社会属性的集成提示,评估这些提示对VL模型性能的影响,特别是在低收入数据上的表现。研究发现,地理和经济社会属性的集成提示能够显著提升VL模型在低收入数据上的性能,并有助于检索到更多反映低收入家庭常见主题的图像。此外,研究还识别了这些策略最有效的应用场景,并公开了模型分析代码,以便于其他研究者评估和改进VL模型。
原理
研究团队采用了三种集成提示策略来提升VL模型在低收入数据上的性能:
- 非英语提示:将默认的英语提示翻译成各国的非英语主要语言,以探索语言多样性对模型性能的影响。
 - 地理属性提示:在默认英语提示后添加国家名称,以引入地理信息,帮助模型更好地理解和区分不同国家的图像数据。
 - 经济社会属性提示:在默认英语提示后添加经济社会属性(如“贫穷国家”、“富裕地区”),以引导模型关注特定经济社会背景下的图像数据。
 
通过这些策略,研究团队利用NLLB-CLIP-SigLIP这一先进的跨语言视觉-语言模型,评估了不同提示对模型在低收入数据上检索性能的影响。研究发现,地理和经济社会属性的集成提示能够显著提升模型在低收入数据上的检索准确性,显示出这些策略的先进性和有效性。
流程
研究团队首先选择了包含38,479张图像的Dollar Street数据集,该数据集涵盖了多个国家和不同收入水平的家庭物品图像。接着,团队设计了三种类型的文本提示:
- 默认英语提示:如“这是一张餐具的照片”。
 - 翻译提示:将默认英语提示翻译成各国的非英语主要语言。
 - 国家后缀提示:如“这是一张来自喀麦隆的餐具照片”。
 - 收入后缀提示:如“这是一张来自贫穷国家的餐具照片”。
 
使用NLLB-CLIP-SigLIP模型,团队计算了图像嵌入与文本嵌入之间的余弦相似度,以评估不同提示下的图像检索性能。通过对比不同提示下的检索结果,团队发现地理和经济社会属性的集成提示能够显著提升模型在低收入数据上的检索准确性。
应用
该研究提出的集成提示策略不仅能够提升VL模型在低收入数据上的性能,还有助于改善AI模型在不同文化和经济社会背景下的公平性和代表性。这些策略可以广泛应用于图像识别、内容推荐系统等领域,特别是在需要考虑地理和经济社会多样性的应用场景中,如全球市场分析、跨文化交流平台等。此外,公开的模型分析代码也为其他研究者和开发者提供了宝贵的资源,以进一步探索和优化VL模型在多样性数据上的表现。
