探索上下文感知机器翻译在专业字幕翻译中的应用与前景

A Case Study on Contextual Machine Translation in a Professional Scenario of Subtitling

摘要

本文通过一项工业案例研究,探讨了在专业字幕翻译场景中利用额外文本上下文(如电影元数据)对机器翻译(MT)质量的影响。研究结果表明,上下文感知模型MTCUE在减少与上下文相关的错误方面显著优于非上下文模型。此外,通过对专业字幕翻译人员的调查,发现上下文不足是MT中的一个重要问题。研究强调了进一步开发完全上下文感知MT系统的必要性。

原理

MTCUE模型是一种多编码器Transformer,专门设计用于上下文感知的神经机器翻译(NMT)。该模型能够利用电影元数据和文档级信息等上下文信号来提高翻译质量,并更好地控制如说话者性别和形式注册等现象。其工作原理涉及将上下文字段转换为等大小的向量通过句子嵌入,然后将生成的向量序列输入到独立的Transformer编码器中。此外,使用点互信息(PMI)来量化翻译假设中的标记与相应上下文之间的共现程度,从而评估上下文特定性。

流程

研究设置了两种语言对(EN-DE和EN-FR),并比较了三种机器翻译系统的输出:GOOGLE(通用NMT引擎)、BASE-NMT(非上下文Transformer模型)和MTCUE(上下文感知模型)。专业字幕翻译人员(PEs)使用ZOOSUBS软件进行翻译和后编辑工作,该软件允许PEs直接跳转到与他们正在审查的话语相对应的片段,并查看前后片段。研究测量了后编辑或翻译电视系列内容所需的努力以及PEs观察到的特定翻译错误数量。

应用

该研究的关键内容在字幕翻译领域具有广泛的应用前景。通过减少后编辑工作量和提高翻译质量,上下文感知的MT系统可以显著提高字幕翻译的效率和准确性。此外,随着技术的进一步发展,这些系统有望在更多语言服务领域得到应用,如本地化、口译等。