"运动与注意力的融合:视频运动提示在动作识别中的创新应用"
摘要
本文由Qixiang Chen等人提出,针对视频处理中的动作识别任务,提出了一种新的方法——视频运动提示(Video Motion Prompts)。传统方法在提取运动特征时往往依赖视觉内容而非精确的运动特征,导致效率低下。本文通过引入一种改进的Sigmoid函数,结合可学习的斜率和偏移参数,作为注意力机制来激活和调制从帧差分图导出的运动信号,生成一系列注意力图,从而增强与运动相关的视频内容的处理。此外,为了确保注意力图的时间连续性和平滑性,作者还引入了成对时间注意力变化正则化,以去除不必要的运动(如噪声)同时保留重要的运动。实验结果表明,该方法能够无缝集成到现有的架构中,如SlowFast、X3D和TimeSformer,并在多个基准测试中达到最先进的性能。
原理
本文的核心创新在于使用一种改进的Sigmoid函数作为注意力机制,该函数具有可学习的斜率和偏移参数,用于激活和调制从帧差分图导出的运动信号。这种机制生成一系列注意力图,通过成对时间注意力变化正则化确保这些图的时间连续性和平滑性。通过将每对注意力图与原始视频帧进行Hadamard积,突出显示随时间演变的感兴趣运动,这些突出显示的运动被称为视频运动提示,随后用作模型的输入。
流程
- 将视频转换为灰度视频序列,并计算连续帧之间的帧差分图。
 - 使用改进的Sigmoid函数(具有可学习的斜率和偏移参数)对帧差分图进行处理,生成注意力图。
 - 应用成对时间注意力变化正则化,确保注意力图的时间连续性和平滑性。
 - 将每对注意力图与原始视频帧进行Hadamard积,生成视频运动提示。
 - 将视频运动提示作为输入,用于模型的训练和推理。
 
应用
本文提出的视频运动提示方法可以广泛应用于视频处理领域,特别是在动作识别任务中。由于其能够有效提取和强调视频中的运动特征,该方法有望在智能视频监控、体育分析、人机交互等多个应用场景中发挥重要作用。此外,该方法的轻量级和高效性使其易于集成到现有的视频处理系统中,具有广阔的市场应用前景。
