探索印度尼西亚语仇恨言论检测的新前沿:IndoToxic2024数据集的先进性与应用

IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language

摘要

本文介绍了一项关于印度尼西亚语中仇恨言论和毒性类型数据集的研究,名为IndoToxic2024。该研究背景是印度尼西亚在过去两年中在线仇恨言论比例增加了十倍,迫切需要有效的检测机制。然而,由于印度尼西亚文本的标记数据有限,特别是对于边缘化少数群体,如什叶派、LGBTQ+和其他少数民族,仇恨言论的报告不足且检测工具理解不足。此外,当前数据集缺乏对主观性的考虑,加剧了这一问题。为了解决这些问题,研究团队引入了IndoToxic2024数据集,这是一个全面的印度尼西亚仇恨言论和毒性分类数据集,包含43,692条由19名不同背景的标注者标注的条目,重点关注印度尼西亚脆弱群体,特别是在该国最热的政治事件——总统选举期间。研究还建立了七个二元分类任务的基线,使用BERT模型(IndoBERTweet)进行仇恨言论分类,实现了0.78的宏观F1分数。此外,研究还展示了如何通过结合人口统计信息来提高大型语言模型gpt-3.5-turbo的零样本性能。然而,研究也警告说,过度强调人口统计信息可能会因数据碎片化而对微调模型性能产生负面影响。

原理

IndoToxic2024数据集的核心在于其对仇恨言论和毒性文本的全面分类,以及对标注者人口统计信息的整合。数据集通过从社交媒体平台收集与印度尼西亚脆弱群体相关的文本,并由多样化的标注者进行标注,确保了数据的广泛性和代表性。标注过程中,每个条目都附有十维的人口统计信息,这使得研究可以探索标注主观性对分类的影响。通过使用BERT模型(IndoBERTweet)进行微调,研究展示了如何利用这些数据来提高仇恨言论检测的准确性。此外,研究还利用gpt-3.5-turbo模型展示了在零样本学习中,如何通过提供标注者的人口统计信息来增强模型的性能。这一方法的先进性在于其能够处理主观性和多样性,同时避免了数据碎片化带来的性能下降。

流程

研究的工作流程包括数据收集、标注者招募与验证、标注工具的创建、标注过程以及数据集分析。数据收集阶段,研究团队从印度尼西亚的社交媒体平台(如Facebook、Instagram和Twitter)以及事实核查网站CekFakta收集文本数据。标注者招募阶段,研究团队招募了18名来自不同人口统计背景的标注者,并通过培训确保他们理解标注标准。标注过程中,标注者根据代码本对文本进行分类,确定是否包含仇恨言论及其类型。数据集分析阶段,研究团队通过计算内部和外部标注者一致性(ICR)分数,评估了标注的主观性,并通过模型训练和测试,分析了人口统计信息对模型性能的影响。整个流程确保了数据集的质量和模型的有效性。

应用

IndoToxic2024数据集的应用前景广泛,特别是在仇恨言论检测和内容审核领域。通过提供一个包含人口统计信息的全面数据集,该研究为开发更精确的仇恨言论检测系统提供了基础。这些系统可以应用于社交媒体平台、新闻机构和政府监管机构,帮助它们更好地识别和处理仇恨言论,保护社会和谐和少数群体的权益。此外,研究中展示的通过人口统计信息增强模型性能的方法,也可能在其他涉及主观性判断的任务中得到应用,如情感分析、舆论监测等。