融合CNNs和ViTs的人类动作识别新模型
摘要
本文是一篇关于人类动作识别(HAR)的综述,主要介绍了卷积神经网络(CNNs)、循环神经网络(RNNs)和视觉转换器(ViTs)在该领域的应用和发展。文章还提出了一种新的混合模型,将CNNs和ViTs的优势相结合,以提高HAR系统的性能。
原理
本文的关键内容是提出了一种新的混合模型,将CNNs和ViTs的优势相结合,以提高HAR系统的性能。该模型的工作原理如下:
- 空间组件(TimeDistributed CNN):使用CNN骨干网络(如Mobilenet)处理每个视频帧,输出空间特征向量。
 - 时间组件(ViT):将空间特征向量输入到ViT模型中,通过多头自注意力机制和前馈神经网络对序列进行处理,最终输出动作分类结果。
 
流程
该模型的工作流程如下:
- 输入视频序列,将其分解为多个视频帧。
 - 使用CNN骨干网络对每个视频帧进行处理,输出空间特征向量。
 - 将空间特征向量输入到ViT模型中,通过多头自注意力机制和前馈神经网络对序列进行处理。
 - 最终输出动作分类结果。
 
应用
该模型的应用前景非常广泛,可以应用于医疗、教育、娱乐、视觉监控、视频检索等领域,帮助人们更好地理解和分析人类动作。
