基于图的标注:提升视觉描述的新策略
摘要
本文提出了一种新的图像标注策略——基于图的标注(GBC),它使用类似场景图的有向无环图结构来描述图像,并使用节点标签来表示图像的不同部分。作者使用预训练的多模态大型语言模型(MLLM)和开放词汇检测模型自动生成GBC标注,并构建了一个包含1000万张图像的大规模GBC数据集GBC10M。实验结果表明,GBC标注可以在各种基准测试中提高模型性能,特别是在检索任务和密集预测任务中。此外,作者还提出了一种新的注意力机制——结构感知层次注意力(SAHA),它可以利用整个GBC图,进一步提高模型性能。
原理
作者提出了一种新的图像标注策略——基于图的标注(GBC),它使用类似场景图的有向无环图结构来描述图像,并使用节点标签来表示图像的不同部分。具体来说,GBC包含四种类型的节点:(1)一个图像节点,包含整个图像的描述;(2)实体节点,包含单个对象的描述;(3)组合节点,连接同一类型的对象;(4)关系节点,描述不同类型对象之间的空间或语义关系。
为了自动生成GBC标注,作者使用了预训练的多模态大型语言模型(MLLM)和开放词汇检测模型。具体来说,作者使用了OSS LLaVA-1.6作为MLLM,使用YOLO-World作为开放词汇检测模型。首先,LLaVA生成整个图像的短标题和长标题,用于提取实体。然后,使用对象检测模型(YOLO-World)为每个实体找到边界框。接下来,使用相同的过程递归地为每个提案生成GBC。最后,LLaVA-1.6被提示生成连接多个实体节点的组合和关系标题。
为了利用GBC图,作者提出了一种新的注意力机制——结构感知层次注意力(SAHA)。SAHA将每个标题视为一个单独的样本,并引入了一个额外的交叉注意力层,强制标题关注其子女。具体来说,SAHA考虑了一个标题图GC = (C, EC),其中顶点C = {v∈V Cv},边EC⊆C×C,使得当且仅当C∈Cu,C′∈Cv,e = (u, v)∈E,并且标签Le出现在源节点u的标题中并且能够表示与目标节点相关联的对象时,存在从u到v的边e。在SAHA中,信息仅在每个块内从每个节点传播到其直接父节点。因此,块的数量必须超过GC的深度,以确保信息从图的所有级别到达根节点。
流程
作者使用OSS LLaVA-1.6作为MLLM,使用YOLO-World作为开放词汇检测模型,自动生成GBC标注。具体来说,作者使用了以下四个查询模板:
- 图像查询:要求模型为图像提供详细的标题,识别突出元素,并使用包含所有这些元素的简洁标题总结长标题。识别出的元素随后传递给检测模型以获得边界框。
 - 实体查询:对于每个边界框,裁剪出该区域并询问模型特定对象是否出现在裁剪后的图像中。此外,还要求模型描述对象并在对象存在时识别对象的突出元素。再次将识别出的元素传递给检测模型进行检测。
 - 组合查询:如果为单个对象类型返回多个边界框,则要求模型使用带注释的图像描述这些对象的组合。
 - 关系查询:对于具有两个以上子节点的图像或实体节点,要求模型描述其子节点之间的关系。
 
为了提高效率和减少冗余信息,作者在Jina Embeddings之上训练了两个专用分类器,以决定一段文本是否适合对象检测,以及两段文本是否可以表示图像中的同一对象。前者应用于每个识别出的元素,而后者在新查询针对已经使用类似文本查询过的区域时导致节点合并。
应用
GBC标注可以在各种基准测试中提高模型性能,特别是在检索任务和密集预测任务中。此外,GBC标注可以提供更丰富的文本信息,有助于开发更先进的视觉语言模型。GBC标注可以应用于图像检索、图像生成、文本生成等领域。
