利用场景图增强视觉-语言模型:交通意外理解的新突破

Enhancing Vision-Language Models with Scene Graphs for Traffic Accident Understanding

摘要

本文介绍了一种利用场景图(Scene Graphs)增强视觉-语言模型以理解交通意外的新方法。论文由Aaron Lohner等人提出,旨在通过将交通场景建模为图结构,其中车辆等对象作为节点,相对距离和方向作为边,来提高交通意外分类的准确性。该方法通过多阶段、多模态的管道处理交通意外视频,将其编码为场景图,并与视觉和语言模态对齐,以进行意外分类。在Detection of Traffic Anomaly (DoTA)基准测试的一个子集上,该方法在4个类别中实现了57.77%的平衡准确率,相较于不使用场景图信息的情况,提高了近5个百分点。

原理

论文提出的Scene-Traffic-Graph Inference (STGi)系统通过以下关键步骤工作:首先,使用roadscene2vec (rs2v)工具生成场景图,然后通过场景图编码器(SGE)将这些图编码为固定长度的嵌入。这些嵌入与从CLIP和X-CLIP模型中获得的文本和视觉输入编码对齐。X-CLIP模型通过引入注意力机制来处理视频帧间的通信,并生成新的嵌入表示。场景图被视为一种新的模态,与文本和视频信号一起用于分类交通意外场景。这种方法通过融合来自场景图、视觉和语言模态的信息,提高了分类器的性能。

流程

STGi系统的工作流程包括四个主要阶段:数据预处理、场景图编码器预训练、多模态对齐和下游任务的微调。在数据预处理阶段,从视频中采样帧,生成字幕,并使用场景图生成器为每个交通意外示例生成一组场景图。场景图编码器预训练阶段涉及在分类任务上预训练场景图编码器。多模态对齐阶段将对齐场景图编码器与冻结的视频和文本编码器。最后,在微调阶段,在多模态模型之上训练一个分类头,以输出交通场景的意外类别。例如,系统从视频和文本输入开始,采样视频帧并生成场景图,然后在对齐训练后使用预测头进行意外分类。

应用

该论文提出的方法在自动驾驶和道路监控系统中具有广泛的应用前景。通过提高交通意外分类的准确性,可以帮助预防类似意外的再次发生。此外,该方法的多模态特性使其能够适应不同的交通场景和意外类型,从而在智能交通管理和安全系统中发挥重要作用。随着技术的进一步发展和优化,预计该方法将在未来的智能交通系统中扮演关键角色。