探索文化包容性:视觉语言模型在视障辅助技术中的应用与挑战
摘要
本文由哥本哈根大学计算机科学系的Antonia Karamolegkou等人撰写,探讨了大型视觉语言模型(VLMs)在帮助视障人士描述日常生活中的图像时的文化包容性和多样性问题。文章指出,现有的评估数据集可能无法充分反映不同文化背景用户的需求和实际使用情境。为此,研究团队创建了一个调查问卷,以确定用户对图像描述的偏好,并通过筛选现有数据集VizWiz构建了一个文化中心评估基准。研究结果显示,尽管最先进的模型表现良好,但仍存在幻觉和自动评估指标与人类判断不一致的问题。研究团队公开了调查问卷、数据、代码和模型输出,以促进进一步的研究和应用。
原理
本文的核心工作原理在于通过创建一个文化中心的评估基准来改进视觉语言模型(VLMs)在多文化环境下的表现。研究团队首先通过调查问卷收集视障人士对图像描述中文化信息重要性和帮助性的看法。随后,他们筛选了VizWiz数据集,该数据集包含由视障人士拍摄的图像,通过识别其中的隐含文化概念,构建了一个挑战性的评估基准。在此基础上,研究团队评估了多个VLMs在不同提示设置下的图像描述性能,包括自动评分和人工评估,以确保模型的输出既准确又符合文化多样性的需求。
流程
研究团队的工作流程包括以下几个关键步骤:
- 调查问卷设计与实施:设计问卷以了解视障人士对图像描述中文化信息的偏好,并通过Prolific平台招募参与者进行调查。
 - 数据筛选与标注:雇佣标注者从VizWiz数据集中筛选出与特定文化背景相关的图像,并提供文化相关的描述。
 - 模型评估:使用筛选后的数据集评估多个VLMs的图像描述性能,包括自动评分(如BLEU、METEOR、CIDEr和SPICE)和人工评估。
 - 结果分析:分析模型生成的描述与人类偏好的一致性,以及文化特定提示对模型性能的影响。
 
应用
本文的研究成果具有广泛的应用前景,特别是在为视障人士提供视觉辅助服务的领域。通过改进VLMs的文化包容性和准确性,可以更好地满足不同文化背景用户的需求,提升用户体验。此外,该研究方法和基准也可以应用于其他需要考虑文化多样性的AI系统开发和评估中,推动AI技术的包容性和公平性发展。
