探索社交媒体新风向:PoPreRo数据集助力罗马尼亚Reddit帖子流行度预测

PoPreRo: A New Dataset for Popularity Prediction of Romanian Reddit Posts

摘要

本文介绍了一个名为PoPreRo的新数据集,专门用于预测罗马尼亚Reddit帖子的流行度。该数据集包含了从五个不同的罗马尼亚Reddit子版块收集的28,107个帖子样本,总计超过100万个词汇。文章不仅介绍了这一新颖数据集,还提出了一系列竞争性模型作为未来研究的基线。其中,表现最佳的模型在测试集上的准确率达到61.35%,宏观F1分数为60.60%,显示出这一预测任务的挑战性。此外,通过少样本提示Falcon-7B大型语言模型的进一步研究也指向了相同的方向。因此,作者认为PoPreRo是一个有价值的资源,可用于评估模型在预测罗马尼亚社交媒体帖子流行度方面的能力。

原理

PoPreRo数据集的工作原理基于对Reddit帖子流行度的预测。文章中提出的模型包括基于Ro-GPT2和Ro-BERT的深度学习模型,以及结合FastText和SVM、TF-IDF和随机森林的浅层分类方法。这些模型通过分析帖子的标题、内容、评论数、投票数等特征,来预测帖子是否会成为流行。特别是Ro-GPT2和Ro-BERT模型,它们通过微调预训练的语言模型,能够捕捉到罗马尼亚语的细微差别,从而更准确地进行分类。此外,文章还探索了大型语言模型(LLM)通过上下文学习(few-shot prompting)进行帖子流行度预测的可行性。

流程

文章详细描述了数据收集、预处理和模型评估的工作流程。首先,通过Reddit API从五个不同的罗马尼亚子Reddit收集帖子数据,并将其存储在JSON文件中。由于API的限制,数据收集还利用了一个开源档案。预处理阶段包括语言识别、投票分数归一化和二元流行度标签的分配。模型评估阶段,文章采用了多种评估指标,如准确率、宏观F1分数、精确度和召回率,并通过网格搜索优化模型超参数。具体示例包括使用Falcon-7B LLM进行少样本提示,通过提供几个流行和不流行的帖子示例,让模型预测新帖子的流行度。

应用

PoPreRo数据集及其相关模型的应用前景广泛,包括但不限于社交媒体内容优化、市场营销策略制定、公共健康信息传播以及对抗错误信息。通过深入分析和预测社交媒体帖子的流行度,可以帮助相关领域更好地理解公众关注点和行为模式,从而制定更有效的策略和措施。