LEAP方法:一种新的音频-视觉视频解析范式,实现事件语义的清晰解开与高效预测
摘要
本文介绍了一种名为“Label-anticipated Event Disentanglement for Audio-Visual Video Parsing”的新方法,旨在解决音频-视觉视频解析(AVVP)任务中的事件检测和时间定位问题。该任务的挑战在于多个事件可能在时间线上重叠,传统的解决方法主要集中在改进早期的音频-视觉编码器以嵌入更有效的特征,而对解码阶段的关注较少。本文提出的解决方案是一种新的解码范式——基于标签语义的投影(LEAP),通过利用事件类别的标签文本,每个标签具有独特且明确的语义,来解析可能重叠的事件。LEAP通过迭代地将音频/视觉片段的编码潜在特征投影到语义独立的标签嵌入上,通过建模跨模态(音频/视觉-标签)交互,逐步解开视频片段内的事件语义,以改进相关的标签嵌入,确保一个更具区分性和可解释性的解码过程。此外,本文还提出了一种语义感知优化策略,包括一个新的音频-视觉语义相似性损失函数,该函数利用音频和视觉事件的交并比(EIoU)作为新指标,以校准特征级别的音频-视觉相似性,适应不同模态间的事件密度变化。实验结果表明,该方法在AVVP任务上达到了新的最先进性能,并增强了相关的音频-视觉事件定位任务。
原理
LEAP方法的核心在于通过迭代地将音频/视觉片段的编码潜在特征投影到语义独立的标签嵌入上,来解开可能重叠的事件语义。具体来说,LEAP方法首先获取所有事件类别的标签文本的嵌入,然后通过一个Transformer架构来建模音频/视觉片段与事件文本之间的跨模态关系。在这个过程中,每个音频/视觉片段能够清晰地感知并与不同的标签嵌入交互。如果一个片段包含重叠事件,那么与这些事件对应的多个独立标签嵌入会通过更高的跨模态注意力权重(类感知)得到增强。这样,隐藏特征中混合的语义被清晰地分离或解开成多个独立的标签嵌入,使得事件解码过程更加可解释和可追踪。中间的跨模态注意力矩阵反映了音频/视觉与标签文本之间的相似性,可以用来生成片段级别的事件预测。随后,每个标签嵌入通过从所有相关时间片段中聚合匹配的事件语义(时间感知)来精炼。那些实际出现在视频中的事件的标签嵌入被增强以更具区分性。更新后的标签嵌入可用于视频级别的事件预测。
流程
LEAP方法的工作流程包括以下几个步骤:
- 获取标签嵌入:使用预训练的Glove模型获取所有事件类别的标签文本的嵌入。
- 跨模态交互建模:通过Transformer架构建模音频/视觉片段与标签嵌入之间的跨模态关系。
- 迭代投影:将音频/视觉片段的编码潜在特征迭代地投影到标签嵌入上,通过跨模态注意力权重增强相关标签嵌入。
- 生成预测:利用跨模态注意力矩阵生成片段级别的事件预测,并通过更新后的标签嵌入生成视频级别的事件预测。
- 优化策略:使用视频级别的弱标签和片段级别的伪标签作为基本监督来规范预测,并设计一个新的音频-视觉语义相似性损失函数来进一步增强音频-视觉表示学习。
应用
LEAP方法在音频-视觉视频解析任务中展现了显著的性能提升,并且能够与现有的AVVP骨干网络兼容,实现了新的最先进性能。此外,该方法还有助于相关的音频-视觉事件定位(AVEL)任务,展示了其泛化能力。因此,LEAP方法不仅在学术研究中具有重要价值,而且在实际应用中,如视频监控、多媒体内容分析等领域,也有广阔的应用前景。
