革命性进展:基于Transformer的伊朗手语识别系统及其广泛应用前景

A Transformer-Based Multi-Stream Approach for Isolated Iranian Sign Language Recognition

摘要

本文介绍了一种基于Transformer的多流方法,用于孤立的伊朗手语(ISL)识别。该研究旨在通过最新的深度学习工具,如Transformer,来识别ISL单词,以弥合聋人和听觉正常人群之间的沟通障碍。研究使用了包含101个常用学术环境中的ISL单词的数据集,通过结合早期融合和晚期融合的Transformer编码器网络,并利用遗传算法进行优化。提取的关键特征包括手和唇的关键点,以及从手语视频中提取的手之间的距离和角度。此外,除了训练模型的类别外,还使用了单词的嵌入向量作为多任务学习,以实现更平滑和高效的学习。该模型在生成的句子数据集上进行了测试,并开发了实时反馈用户的交互式手语训练软件,测试数据准确率达到90.2%。该软件和研究总体上可以作为手语识别模型在现实世界中实际应用的初步步骤,对聋人社区有很大帮助。

原理

该研究的核心在于利用Transformer网络处理序列数据的能力,通过多流输入(包括手关键点、唇关键点和手之间的距离和角度)进行早期和晚期融合。Transformer网络通过自注意力机制捕捉输入序列中的长距离依赖关系,从而能够更好地理解手语的复杂动态。遗传算法用于优化网络结构,确保模型在处理手语数据时既高效又准确。通过这种结合深度学习和遗传算法的方法,模型能够从视频中提取关键特征,并准确识别ISL单词。

流程

  1. 数据预处理:从视频中提取手和唇的关键点坐标,以及手之间的距离和角度。
  2. 特征融合:将提取的特征通过早期和晚期融合策略输入到Transformer网络中。
  3. 模型训练:使用遗传算法优化网络结构,训练模型识别ISL单词。
  4. 实时反馈:开发交互式手语训练软件,利用训练好的模型提供实时用户反馈。
  5. 句子测试:通过窗口技术生成句子,测试模型在连续手语识别中的表现。

应用

该研究的应用前景广泛,特别是在教育、医疗和公共服务领域。手语识别系统的开发不仅能够提高聋人社区的生活质量,还能促进聋人与听觉正常人群之间的交流。此外,该技术还可以用于开发手语翻译机器人,进一步扩展其应用范围。随着技术的进一步发展和数据集的扩大,预计该系统将在全球范围内得到更广泛的应用。