"S-GEAR:利用语义互联性革新动作预测技术"
摘要
本文介绍了一种名为S-GEAR的新型框架,用于动作预测(action anticipation),该框架利用动作之间的语义互联性(semantic interconnectivity)。动作预测是从部分观察到的事件序列中预测未来活动,这一任务面临内在的未来不确定性和推理相互关联动作的难度。S-GEAR通过学习视觉动作原型并利用语言模型来构建它们之间的关系,从而引入语义性。该框架在四个动作预测基准测试中取得了比先前工作更好的结果,并展示了动作语义互联性的复杂影响。
原理
S-GEAR框架的核心在于学习基于原型动作模式和上下文共现的动作表示,这些表示能够意识到它们之间的语义互联性。具体来说,S-GEAR学习一组视觉动作原型,每个原型编码特定的动作模式,捕捉定义和区分动作类别的典型运动或手势,减少对个别视频外观细节的依赖。此外,S-GEAR利用语言模型来构建动作之间的关系,这些模型已知能够提取概念间的语义关系。通过创建基于动作标签的语言原型,并将它们的内在语义互联性转移到视觉原型,S-GEAR能够在不直接对齐它们的情况下,将语义关系从语言转移到视觉领域。
流程
S-GEAR的工作流程包括以下几个关键步骤:
- 视觉编码器:使用Vision Transformer (ViT)从每个帧中获取空间特征。
 - 时间上下文聚合器(TCA):将过去观察的详细时间上下文转移到当前帧表示中。
 - 原型注意力(PA):通过特征相似性从选定的视觉原型中聚合信息,促进动作间的语义关系编码。
 - 因果变换器解码器(CT):分析从t=0到t=T-1的ˆI,并生成一组描述可能未来的特征。
 - 分类头:基于解码器的输出和与视觉原型的几何关联,产生未来类别的概率。
 
应用
S-GEAR框架在动作预测任务中展现出显著的改进,特别是在需要理解复杂动作序列和上下文的场景中,如自动驾驶汽车和可穿戴助手。其对动作间语义互联性的有效编码,为未来在视频理解、人机交互和智能监控系统等领域的应用提供了广阔的前景。
