CHARON:持续学习中基于骨骼的高效动作识别新基准

Mask and Compress: Efficient Skeleton-based Action Recognition in Continual Learning

摘要

本文介绍了一种在持续学习背景下基于骨骼数据的高效动作识别方法,名为CHARON(Continual Human Action Recognition On skeletoNs)。该方法通过均匀采样、插值和基于掩蔽的内存高效训练阶段,实现了在保持性能的同时减少计算开销。CHARON在Split NTU-60和Split NTU-120数据集上的实验表明,它在基于骨骼的动作识别领域设定了新的基准。论文还提供了代码链接,以便进一步研究和应用。

原理

CHARON的核心在于利用骨骼数据的特点,通过以下几个关键技术实现高效的动作识别:

  1. 均匀采样和插值:骨骼序列在时间上存在冗余,因此可以通过采样和线性插值来压缩数据,减少存储需求,同时保持关键信息。
  2. 掩蔽图像建模(MIM):通过在训练过程中仅使用部分输入数据并利用轻量级解码器模块进行重建,实现自监督预训练,减少训练时间和内存占用。
  3. 联合优化:将自重建任务与识别任务联合优化,不仅减少了训练需求,还作为编码器的正则化器,产生更有意义的表示。
  4. 线性探测阶段:在每个任务结束时,冻结编码器参数,重新对齐分类器,以解决训练和测试条件不一致的问题。

流程

CHARON的工作流程包括以下几个步骤:

  1. 数据预处理:对原始骨骼序列进行均匀采样和插值,压缩数据并存储在内存缓冲区中。
  2. 训练阶段:使用掩蔽技术对输入序列进行处理,通过编码器-解码器框架进行训练,同时优化识别和重建任务。
  3. 线性探测阶段:在每个任务结束时,仅更新分类器参数,确保模型在完整输入上的性能。
  4. 评估:在Split NTU-60和Split NTU-120数据集上进行全面评估,验证CHARON在类增量动作识别中的性能。

应用

CHARON在持续学习背景下的骨骼基动作识别具有广泛的应用前景,特别是在需要不断更新和适应新动作的应用场景中,如监控、康复医疗和体育分析。其高效性和性能优势使其成为未来研究和实际应用的有力工具。