EFV++:基于事件流的高性能模式识别框架

Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition

摘要

本文提出了一种名为EFV++的新型双流框架,用于基于事件流的模式识别。该框架通过区分融合的方式,同时处理事件图像和事件体素两种常见的事件表示形式。利用Transformer和图神经网络(GNN)分别学习空间和三维立体信息。为了解决直接融合可能导致的次优解问题,本文提出了一种质量感知的三级特征处理方法,即保留高质量特征、融合中等质量特征、交换低质量特征。此外,引入了一种新颖的混合交互读出机制,以增强特征的多样性作为最终表示。实验证明,该框架在多个广泛使用的基于事件流的分类数据集上达到了最先进的性能。

原理

EFV++框架的核心在于其双流处理和质量感知的特征融合策略。首先,框架将事件流转换为事件图像和事件体素两种表示形式,分别通过Transformer和GNN进行特征学习。Transformer学习事件图像的空间特征,而GNN则处理事件体素的立体结构特征。关键的创新点在于质量感知的RBE(Retain, Blend, and Exchange)模块,该模块根据特征的质量将其分为高、中、低三个等级,并分别进行保留、融合和交换处理,以实现更有效的特征融合。最后,通过引入基于GRU的混合交互读出机制,进一步增强了特征的多样性和识别性能。

流程

EFV++的工作流程包括以下几个关键步骤:

  1. 输入表示:将密集的事件流转换为事件图像和事件体素两种形式。
  2. 特征学习:使用Transformer网络学习事件图像的空间特征,使用GNN学习事件体素的立体结构特征。
  3. 质量感知的RBE模块:根据特征质量进行分级处理,保留高质量特征,融合中等质量特征,交换低质量特征。
  4. 混合交互读出机制:通过GRU网络融合不同排列组合的特征,生成更丰富的特征表示。
  5. 分类头:将最终的特征输入到分类头中,使用负对数似然损失函数进行训练。

应用

EFV++框架在基于事件流的物体识别领域具有广泛的应用前景。由于其高效的特征处理和融合策略,该框架可以应用于各种需要高动态范围、高时间分辨率和低延迟响应的场景,如自动驾驶、机器人视觉、人机交互等。此外,该框架的模块化设计也为其在不同应用场景中的定制和优化提供了可能。