"突破语言障碍:人工智能在习语翻译中的创新应用"
摘要
本文探讨了大型语言模型(LLMs)在习语翻译中的能力提升问题。习语翻译一直是LLMs面临的挑战,因为习语深植于文化背景中,直接翻译往往丢失了原文的文化和情感内涵。本文提出了一种新的方法——余弦相似度查找法,通过比较习语的语义相似度来选择最佳的翻译习语,以保留原文的习语风格和文化细节。此外,本文还开发了一个低资源语言(如乌尔都语)的习语数据集,展示了该方法在跨文化交流中的应用潜力。
原理
本文的核心在于改进LLMs处理习语的能力。通过引入余弦相似度查找法,该方法利用SentenceTransformers模型生成习语的语义嵌入,并通过余弦相似度计算来找到与源语言习语最匹配的目标语言习语。这种方法不仅考虑了习语的字面意义,还深入挖掘了其背后的文化和情感内涵,从而在翻译过程中更好地保留了原文的风格和情感。
流程
本文的工作流程包括数据集构建、习语翻译和评估三个主要步骤。首先,构建了包含英语、中文和乌尔都语习语的数据集。接着,通过三种方法进行习语翻译:余弦相似度查找法、LLM生成的习语法和直接翻译法。最后,通过GPT模型和人工评估来验证翻译的准确性和文化保真度。例如,在英语到中文的翻译中,余弦相似度查找法通过比较习语的语义嵌入,选择最匹配的中文习语进行翻译。
应用
本文提出的方法不仅适用于英语和中文之间的习语翻译,还扩展到了低资源语言如乌尔都语。这种方法的应用前景广泛,特别是在文学和教育领域,可以促进跨文化交流和理解。通过更准确地翻译习语,可以使得文学作品在不同文化中保持其原有的风格和情感,从而增强全球读者的阅读体验。
