SmurfCat团队在PAN 2024多语言文本净化任务中的创新解决方案

SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification

摘要

本文由SmurfCat团队在PAN 2024文本净化任务中提出,旨在解决多语言文本净化问题。通过数据增强和机器翻译技术,团队构建了一个多语言平行数据集,并使用mT0和Aya等模型进行微调。特别地,团队采用了ORPO对齐技术,使得最终模型在乌克兰语上达到最先进水平,在其他语言上也接近最先进水平。该模型在自动评估中获得第一名,在人工评估中获得第二名。

原理

本文的核心在于通过数据增强和模型微调来提升多语言文本净化能力。首先,通过机器翻译从英语数据集中生成其他语言的样本,然后使用LaBSE模型评估翻译后的语义相似度,以及XLM-R毒性分类器检查翻译后的毒性。接着,使用mT0系列模型进行序列到序列的微调,结合ORPO对齐技术优化模型输出,确保模型在不同语言中的表现一致且高效。

流程

  1. 数据准备:使用机器翻译和特定的过滤程序,从原始的英语和俄语数据集中生成多语言平行数据集。
  2. 模型训练:选择mT0系列模型进行微调,使用多样性束搜索算法生成多个假设,并通过相关性评分选择最佳输出。
  3. 模型优化:应用ORPO对齐技术进一步优化模型,通过在未见测试数据集上生成假设并进行人工标注,训练模型以更好地选择最佳输出。

应用

该研究不仅在多语言文本净化领域具有重要意义,其方法和技术还可广泛应用于社交媒体内容管理、在线评论过滤等场景。随着模型的进一步优化和扩展,预计将在全球范围内提升网络环境的清洁度和安全性。