"iSign:开启印度手语处理技术的新纪元"
摘要
本文介绍了一项名为iSign的基准测试,旨在推动印度手语(ISL)处理技术的发展。由于ISL资源有限,现有的机器学习和数据驱动方法在自动化语言处理方面进展缓慢。iSign项目通过发布一个包含超过118,000个视频-句子/短语对的大型ISL-英语数据集,提出了多个NLP特定任务,并提供了详细的ISL语言学见解,以促进研究社区对ISL处理技术的开发和评估。此外,iSign还计划通过增加更多样本和任务来扩展数据集,并计划将语言学先验知识融入模型中。
原理
iSign基准测试的核心在于通过大规模数据集和多任务学习来提升ISL的处理能力。数据集的创建主要依赖于YouTube上的公开资源,包括ISLRTC视频、ISH新闻和DEF短语。这些视频被分割成句子级别的片段,并与相应的英语翻译配对。为了处理这些视频,使用了Mediapipe姿态估计管道来提取75个关键点的3D坐标,并对这些关键点进行归一化处理。此外,iSign还引入了多个NLP任务,如SignVideo2Text、SignPose2Text、Text2Pose、Word Prediction和Sign Semantics,以及两个额外的任务:Sign Presence Detection和Sign Semantic Similarity Prediction,以鼓励在手语中的表示学习和上下文化学习。
流程
iSign的工作流程包括数据集的创建、预处理、任务定义和模型训练。首先,从YouTube上收集并分割视频,提取关键点,并与英语翻译配对。然后,定义多个NLP任务,并为每个任务开发基准模型。这些模型通过训练来处理ISL视频,将其转换为文本或生成相应的ISL姿势序列。评估这些模型的性能时,使用了BLEU、METEOR和ROUGE-L等标准翻译指标,以及动态时间规整(DTW)算法来评估生成的姿势序列的质量。
应用
iSign基准测试的应用前景广泛,不仅有助于提升ISL的翻译模型,还能促进自然语言建模技术的发展,如上下文化表示学习、掩码语言建模和捕捉语义相似性等。此外,iSign的发布预计将鼓励NLP社区在ISL处理技术上的研究,并为未来的研究提供一个标准化的评估平台。
