探索大型视觉语言模型中的多对象幻觉:ROPE 评估协议的先进性与应用前景
摘要
本文探讨了大型视觉语言模型(LVLMs)中的多对象幻觉问题,通过引入基于识别的对象探测评估(ROPE),系统地研究了模型在关注多个对象时的错误感知,以及导致幻觉的因素。研究发现,LVLMs在关注多个对象时更容易出现幻觉,测试对象类分布会影响幻觉行为,且幻觉行为受到数据特定因素、显著性和频率以及模型内在行为的影响。
原理
ROPE 通过视觉提示唯一地引用对象,避免了文本描述中对象类名可能导致的歧义。它考虑了测试时每个图像中对象类的分布,将 ROPE 分为 4 个子集:In-the-Wild、Homogeneous、Heterogeneous 和 Adversarial。通过对不同规模和训练数据的 LVLMs 进行实验,分析了潜在因素对多对象幻觉的影响。
流程
- 问题定义:利用视觉提示唯一地引用对象,避免文本提示的歧义。
 - 任务设置:设计了 3 种多对象查询的任务提示,包括默认、学生强制和教师强制。
 - 数据集构建:基于现有全景分割数据集构建,确保访问所有对象实例及其语义类。
 - 实验和结果:选择了多种 LVLMs 作为基线,进行了主实验和额外实验,分析了模型的性能和幻觉行为。
 
应用
该研究有助于更好地理解 LVLMs 的行为,为开发和应用 LVLMs 提供了关键见解。未来可通过改进模型设计、增加训练数据的多样性等方法,减少多对象幻觉,提高模型的性能和可靠性。
