"Translatotron-V(ision): 革命性的端到端图像内机器翻译模型"

Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation

摘要

本文介绍了一种名为Translatotron-V(ision)的端到端图像内机器翻译(IIMT)模型,旨在将包含源语言文本的图像翻译成包含目标语言文本的图像。传统的级联方法存在错误传播、参数庞大和部署困难等问题。Translatotron-V(ision)通过引入目标文本解码器和图像标记器,有效减轻了模型的建模负担,并防止模型直接预测像素,从而在保持图像视觉特征的同时,实现了高效的翻译。此外,本文还提出了一种名为Structure-BLEU的评估指标,用于评估生成图像中翻译文本的质量。实验结果表明,该模型在参数减少的情况下,性能与级联模型相当,显著优于基于像素的端到端IIMT模型。

原理

Translatotron-V(ision)模型由四个模块组成:图像编码器、目标文本解码器、图像解码器和图像标记器。图像编码器将输入图像转换为视觉向量序列,目标文本解码器利用这些向量预测文本翻译,从而减轻图像解码器的建模负担。图像解码器根据图像编码器和目标文本解码器生成的视觉和语言信息生成目标图像的视觉标记。图像标记器将图像转换为离散的视觉标记,并能从这些标记重建图像。通过将图像转换为视觉标记,图像解码器只需预测视觉标记,而不是过长的像素序列,这使得模型能够避免过多关注低级视觉特征。

流程

Translatotron-V(ision)的工作流程分为两个阶段。第一阶段,使用大规模未标记图像数据集训练图像标记器,通过图像重建任务将图像转换为视觉标记并重建图像。第二阶段,冻结图像标记器,使用IIMT数据集通过多任务学习和知识蒸馏训练图像编码器、目标文本解码器和图像解码器。多任务学习包括OCR和文本图像翻译(TIT)辅助任务,帮助模型学习跨模态和语言的对齐。知识蒸馏方法通过减少端到端模型直接从真实标签学习的难度,提高了模型的性能。

应用

Translatotron-V(ision)模型在多个领域具有广泛的应用前景,特别是在需要实时图像内翻译的场景,如旅游、广告和教育。该模型能够帮助外国游客理解其他语言的标志,提高跨文化交流的效率。此外,随着全球化的加深,图像内机器翻译的需求将不断增长,Translatotron-V(ision)模型的性能和效率使其成为满足这一需求的理想选择。