探索视觉-语言AI系统中的不确定性:CERTAINLYUNCERTAIN数据集与置信加权准确度的新视角

Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness

摘要

本文介绍了一种针对视觉-语言AI系统的多模态不确定性分类法,区分了知识不确定性(源于信息缺乏)和偶然不确定性(源于固有的不可预测性),并进一步探索了更细分的类别。基于此分类法,作者合成了一组名为CERTAINLYUNCERTAIN的基准数据集,包含178K视觉问答(VQA)样本作为对比对。此外,文章还引入了一种新的度量标准——置信加权准确度,该指标与准确度和校准误差高度相关,旨在解决现有指标的不足。尽管视觉-语言模型(VLMs)近期取得了快速进展,但在不确定性场景下的评估显示其表现不佳。进一步的实验表明,通过CERTAINLYUNCERTAIN进行监督微调可以提升VLMs的性能并减少校准误差。这些改进不仅限于基准数据集,还扩展到现有的拒绝导向数据集,并显示出在减少幻觉的同时保持标准VQA基准性能的积极结果。本文强调了在视觉-语言AI系统中处理不确定性的重要性,以提高其在实际应用中的可靠性和可信度。

原理

本文的核心在于提出了一种新的多模态不确定性分类法,并基于此分类法构建了一个大规模的VQA数据集CERTAINLYUNCERTAIN。该分类法将不确定性分为知识不确定性和偶然不确定性两大类,并进一步细分为多个子类别,如知识意识、复杂性意识、外部意识、时间意识和模糊意识。通过图像修复和图像描述生成两种方法,创建了包含对比对的VQA样本,使得原本可回答的问题变为不可回答。此外,为了更全面地评估模型性能,文章提出了一种新的度量标准——置信加权准确度,该指标结合了模型预测的置信度与准确度,能够同时捕捉预测性能和模型置信度。

流程

  1. 不确定性分类法的构建:首先,作者定义了知识不确定性和偶然不确定性,并进一步细分为多个子类别。
  2. 数据集的创建:利用图像修复技术(如图像区域遮罩和修复)以及图像描述生成技术(如GPT-4),创建了包含178K VQA样本的CERTAINLYUNCERTAIN数据集。
  3. 模型评估:使用现有的视觉-语言模型(VLMs)对CERTAINLYUNCERTAIN数据集进行评估,发现这些模型在不确定性场景下的表现不佳。
  4. 模型微调:通过在CERTAINLYUNCERTAIN数据集上进行监督微调,提升VLMs在不确定性场景下的性能,并减少校准误差。
  5. 新度量标准的引入:提出并验证了置信加权准确度这一新度量标准,该标准能够更好地反映模型在不确定性场景下的性能。

应用

本文提出的多模态不确定性分类法和CERTAINLYUNCERTAIN数据集为视觉-语言AI系统的研究和开发提供了重要的工具和资源。这些成果不仅有助于提升现有模型的性能,还能够推动新模型的设计和评估。特别是在需要高度可靠性和可信度的应用场景中,如医疗诊断、金融预测等,这些成果的应用前景尤为广阔。此外,置信加权准确度这一新度量标准也为多模态模型的评估提供了新的视角和方法。