探索CEIA:基于CLIP的事件-图像对齐框架,开启开放世界多模态理解新篇章
摘要
本文介绍了一种名为CEIA(CLIP-Based Event-Image Alignment)的有效框架,用于开放世界基于事件的理解。当前,由于缺乏配对的事件-文本数据,训练大型事件-文本模型仍然是一个巨大挑战。为了应对这一挑战,CEIA通过对比学习,利用丰富的事件-图像数据集来学习与CLIP图像空间对齐的事件嵌入空间,从而间接对齐事件和文本数据。CEIA具有两大优势:一是能够充分利用现有的事件-图像数据集来弥补大规模事件-文本数据集的不足;二是通过利用更多的训练数据,展现出提升性能的灵活性,确保了可扩展性。CEIA在多种基于事件的多模态应用中进行了广泛评估,如物体识别、事件-图像检索、事件-文本检索和领域自适应,结果显示CEIA在这些应用中相较于现有方法具有显著的零样本优势。
Read more...








