ChatGPT在社会计算数据标注中的应用与挑战:GPT-Rater工具的前瞻性探索
摘要
本文探讨了大型语言模型(LLM)如ChatGPT在社会计算任务中作为数据标注工具的潜力,旨在减少网络研究的复杂性和成本。研究通过重新标注七个涵盖COVID-19错误信息、社交机器人欺骗、网络欺凌、点击诱饵新闻和俄乌战争等紧迫社会问题的数据集,评估了ChatGPT的标注能力。结果显示,ChatGPT在数据标注任务中表现出色,平均标注F1分数达到72.00%,尤其在点击诱饵新闻标注中正确率高达89.66%。然而,不同标签间的性能存在显著差异。为此,研究提出了GPT-Rater工具,用于预测ChatGPT在特定标注任务中的表现,该工具在点击诱饵新闻数据集上的平均F1分数达到95.00%,显示出其在辅助研究人员评估ChatGPT标注适用性方面的潜力。
原理
ChatGPT通过OpenAI API配置的gpt-3.5-turbo-0631模块进行数据标注,利用官方提供的分类任务提示模板进行操作。该模板采用命令式句子开头,如“Classify”,并根据具体任务调整,确保ChatGPT能够根据输入文本生成相应的标注标签。GPT-Rater则通过二元分类任务,利用数据项的文档嵌入作为输入特征,预测ChatGPT是否能正确标注该数据项,其核心在于评估ChatGPT标注的准确性并提供预测。
流程
研究首先选择七个公开的社会计算数据集,涵盖五个不同的社会问题。随后,使用ChatGPT对这些数据集进行标注,并与原始人类标注进行比较。具体流程包括:1) 选择数据集;2) 使用ChatGPT进行标注;3) 比较ChatGPT标注与人类标注的差异;4) 分析标注结果并提出GPT-Rater工具。例如,在点击诱饵新闻数据集上,ChatGPT通过特定的提示模板,成功标注了31,084条新闻标题,正确率达到89.66%。
应用
ChatGPT在社会计算领域的数据标注任务中展现出巨大潜力,尤其在处理点击诱饵新闻等特定类型数据时表现卓越。GPT-Rater工具的提出进一步增强了其在实际应用中的可行性,为研究人员提供了一个评估和选择ChatGPT标注任务的实用工具。未来,随着技术的进一步发展和优化,ChatGPT及其相关工具将在社会计算研究中扮演更加重要的角色,特别是在数据标注成本高昂和复杂性大的领域。
